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Resumen 



El aprendizaje automatico sc basa en el diseno de algoritmos que utilizan la informacion 
historica para aprcnder. Algunos dc estos algoritmos usan las distancias para medir cl grado de 
similitud (o disimilitud) entre objetos; estos metodos, basados en distancias, son un enfoque muy 
conocido y potente para la inferencia inductiva, ya que las distancias son una forma adecuada 
para medir la disimilitud. Comiinmente, todos estos algoritmos, basados en distancias y otros 
enfoques, utilizan informacion que es representada mcdiantc datos proposicionales (tuplas de 
componentes numericos o categoricos, los cuales son facilmcntc rcprcscntados como una tabla); 
sin embargo, este tipo de representaciones pueden ser un poco restrictivas y, en muchas ocasiones, 
se requiere de estructuras mas complejas que permitan representar los datos de una manera mas 
natural. 

Por otra parte, los terminos son la base para la representacion de la programacion logica y 
funcional. A la vez, la programacion logica y la programacion funcional pueden ser utilizadas 
para la representacion del conocimiento en variedad de aplicaciones (sistemas basados en el 
conocimiento, mineria de datos, etc.). Las distancias entre terminos son una herramienta muy 
litil, no solo para comparar terminos, sino tambien para determinar el espacio de biisqueda en 
muchas de esas aplicaciones. 

Este trabajo aplica las distancias entre terminos, aprovechando las caracteristicas propias 
de cada distancia y la posibilidad de comparar desde tipos de datos proposicionales hasta re- 
presentaciones jerarquicas. Las distancias entre terminos sc aplican por medio del algoritmo de 
clasificacion fc-NN (fc-vccinos mas ccrcanos) utilizando un Icnguaje dc representacion comiin; 
el lenguaje utilizado es XML, que ademas de su popularidad, ofrece una alta fiexibilidad para 
representacion de datos proposicionales y terminos desde diferentes niveles de jerarquia. Para 
poder representar estos datos en una estructura XML y con el fin de aprovechar los beneficios de 
las distancias entre terminos, es necesario aplicar algunas transformaciones. Estas transforma- 
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clones permiten convertir datos pianos en datos jerarquicos, representados en XML, aplicando 
algunas tecnicas basadas en asociaciones intuitivas entre los valores y nombres de las variables 
y asociaciones basadas en la similitud de los atributos. 

Adicionalmente, es posible aplicar estas distancias entre terminos sobre estructuras origi- 
nalmente jerarquicas. Conservando XML como lenguaje de representacion, el proceso de trans- 
formacion consiste, principalmente, en mantener el nivel de profundidad de los nombres de las 
variables y sus valores y garantizar el orden, de acuerdo con caracterfsticas de formacion de 
XML. 

Consecuentemente, en este trabajo se realizan experimentos con la distancia entre terminos 
de Nienhuys-Cheng [28] y la distancia de Estruch et al. [10] . Para el caso de datos originalmente 
proposicionales, estas distancias son comparadas con la distancia euch'dea. En todos los casos, 
los experimentos se realizan con distancias ponderadas del algoritmo de fc-vecinos mas cercanos, 
utilizando varios exponentes para la funcion de atraccion (distancia ponderada). Se puede ver 
que, en algunos casos, estas distancias entre terminos pueden mejorar significativamente los 
resultados sobre enfoques aplicados para representaciones planas. Para el caso de estructuras 
originalmente jerarquicas, tambien se pueden resaltar diferencias obtenidas en el proceso de 
clasificacion dependiendo del tipo de distancia (entre terminos) aplicada. 



Palabras clave: funciones de distancia, clasificacion, representacion basada en terminos, datos 
jerarquicos, datos XML, programacion inductiva. 
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Abstract 



Machine learning is based on the design of algorithms that use historical information to learn. 
Some of these algorithms use distances to measure the degree of similarity (or dissimilarity) 
between objects; these methods, based on distances, are a well known and powerful approach 
to inductive inference, since the distances are a proper way to measure dissimilarity. Usually, 
these distance-based algorithms, and other approaches, use information that is represented by 
propositional data (tuples of numerical or categorical components, which are easily represented 
as a table), however, this kind of representation can be quite restrictive and, in many cases, it 
requires more complex structures in order to represent data in a more natural way. 

On the other hand, the terms are the basis for functional and logic programming represen- 
tation. At the same time, logic and functional programming can be used for knowledge repre- 
sentation in a variety of applications (knowledge-based systems, data mining, etc.). Distances 
between terms are a useful tool not only to compare terms, but also to determine the search 
space in many of these applications. 

This dissertation applies distances between terms, exploiting the features of each distance 
and the possibility to compare from propositional data types to hierarchical representations. 
The distances between terms are applied through the fc-NN (fc-nearest neighbor) classification 
algorithm using a common language representation; the language used is XML which, in addi- 
tion to its popularity, offers high flexibility for propositional data and term representation from 
different hierarchy levels. To be able to represent these data in an XML structure and to take 
advantage of the benefits of distance between terms, it is necessary to apply some transforma- 
tions. These transformations allow the conversion of flat data into hierarchical data represented 
in XML, using some techniques based on intuitive associations between the names and values 
of variables and associations based on attribute similarity. 
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Additionally, it is possible to apply these distances between terms over originally hierarchical 
structures. Preserving XML as a representation language, the transformation process is mainly 
to maintain the depth level of the variables' names and their values and ensure the order, 
according to XML formation features. 

Consequently, several experiments with the distances between terms of Nienhuys- Cheng [SS] 
and Estruch et al. [101 were performed in this dissertation. In the case of originally propositional 
data, these distances are compared to the Euclidean distance. In all cases, the experiments were 
performed with the distance- weighted fc-nearest neighbor algorithm, using several exponents for 
the attraction function (weighted distance). It can be seen that in some cases, the term distances 
can significantly improve the results on approaches applied to flat representations. In the case 
of originally hierarchical structures, differences obtained in the classification process depending 
on the distance type applied (between terms) can also be highlighted. 



Keywords: Distance functions, classification, term-based representation, hierarchical data, XML 
data, inductive programming. 
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1 Introduccion 



1.1 Motivacion 



La informacion historica es fundamental para la aplicacion de algoritmos de aprendizaje 
automatico; esta informacion puede ser representada de multiples formas que van desde estruc- 
turas rfgidas y estrictamente ordenadas (por ejemplo datos tabulares) hasta representaciones 
mas naturales (textos, paginas web, etc.). Muchos de estos metodos de aprendizaje, tipicos en 
aplicaciones de minen'a de datos, estan disenados para trabajar con representacion de datos 
proposicionales que consisten en tuplas de atributos numericos o categoricos, comiinmente re- 
presentados como una tabla. Los resultados obtenidos por la aplicacion de estos algoritmos se 
ven afectados, entre otros aspectos, por la manera en que se representan los datos; en muchas 
ocasiones, los datos deben ser aplanados para ajustarse a representaciones proposicionales; lo 
anterior hace que se requiera de un lenguaje de representacion mas expresivo basado en tipos de 
datos estructurados como conjuntos, arboles, grafos, etc. Dado que el aprendizaje proposicional 
no se puede tratar con estos tipos de datos, nuevos metodos ban sido disefiados para extraer 
patrones desde descripciones mas complejas [8]. 

Un subcampo del aprendizaje automatico, relacionado con el aprendizaje a partir de la 
logica de primer orden, es conocido como programacion logica inductiva (ILP), que puede ser 
aplicada para la representacion de la informacion de una forma mas natural y expresiva que 
otros paradigmas, que solo aprenden de ejemplos con estructuras planas. Este area ha sido 
extendida a otros paradigmas, como la programacion funcional, dando lugar a la programacion 
funcional inductiva o a la programacion logico-funcional inductiva [50] [5T] [O] o al area general 
de programacion inductiva |29j |14j |23j . En programacion logica y en programacion funcional. 
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los datos se representan en base a una estructura de datos que se denomina termino, a partir 
de los que se definen los atomos , clausulas o reglas y, en definitiva, los programas. 

El aprendizaje basado en instancias utiliza el principio del razonamiento basado en casos 
(CBR), donde "problemas similares tienen soluciones similares". Este aprendizaje utiliza la 
distancia para conocer la similitud (o disimilitud) entre instancias. Las distancias (tambien 
llamadas metricas) son medidas de disimilitud con algunas propiedades especiales, como la 
simetn'a y la desigualdad triangular, las cuales son muy ventajosas para muchos algoritmos 
porque el espacio de biisqueda puede ser reducido a una triangulacion. Los metodos basados en 
distancias son muy eficaces para la inferencia inductiva; la gran ventaja de estos metodos es que 
tambien son algoritmos o tecnicas que pueden ser aplicadas sobre diferentes ordenes de tipos de 
datos, siempre que una funcion de similitud haya sido definida previamente para estos tipos de 
datos 

Por otra parte, existen lenguajes muy populares que se basan en arboles o jerarqui'as, como 
XML y estructuras relacionadas funcionalmente similares [5], que pueden ser utilizados para 
representar la informacion o el conocimiento (por ejemplo ontologfas). Las estructuras en arboles 
y los terminos funcionales tienen fuertes similitudes; un termino en programacion funcional (o 
logica) puede ser represent ado como un arbol ordenado. Aunque la semantica es crucial para 
entender el rol de un termino o atomo con relacion a un programa, tambien es posible analizar 
terminos de manera aislada (analizando linicamente su parte sintactica). 

Existen distancias para virtualmcnte cualquier tipo de objeto, incluyendo complejos o alta- 
mente estructurados, como tuplas, listas, arboles, grafos, imagenes, sonidos, paginas web, onto- 
logfas, etc. Un nuevo reto en el aprendizaje automatico, pero mas especialmente en el area de 
la programacion inductiva, es la distancia entre terminos o atomos de primer orden. Aunque los 
terminos pueden ser usados para representar muchos de los tipos de datos previos (y consecuen- 
temente, una distancia entre terminos virtualmcnte llega a ser una distancia para cualquier dato 
complejo y estructurado) , estos tipos de datos son especialmente adaptados para representacio- 
nes basadas en terminos o arboles. De esta manera, estas distancias no solo pueden ser usadas 
en el area de la programacion logica inductiva (ILP) [27] (por ejemplo segmentacion de primer 
orden [3] ) o en general, programacion inductiva, sino tambien para areas donde esta involucrada 
la informacion estructurada (jerarquica) como aprendizaje de ontologfas o documentos XML. 

En comparacion con las distancias tradicionales, las distancias entre terminos cuentan con 
propiedades adicionales (como la sensibilidad del contexto, el tamafio de las diferencias, las 
diferencias repetidas, etc.) que favorecen la comparacion de estructuras jerarquicas; en esta me- 
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dida, estas distancias, permiten comparar desde tipos de datos proposicionales hasta estructuras 
jerarquicas. Una manera de lograr mejores resultados en las tareas de aprendizaje basado en 
distancias es aplicando transformaciones que conviertan datos proposicionales en jerarquicos 
o mantener la jerarqufa original y asf obtener un mayor provecho de las propiedades de las 
distancias entre tcrminos. 



1.2 Objetivos 

El proposito general de este trabajo es aplicar distancias entre terminos sobre conjuntos de 
datos jerarquicos que, por medio de transformaciones apropiadas sobre datos pianos, puedan 
ser utilizadas en una gama mas amplia de aplicaciones y permitan mejorar los procesos de 
clasificacion. Especificamente, se utilizan las distancias entre terminos de Nienhuys- Cheng y 
Estruch et al. para el algoritmo de fc-vecinos mas cercanos, aplicadas para datos categoricos 
sobre dos tipos de representaciones: primero, jerarqufas construidas a partir de datos pianos, 
utilizando relaciones entre atributos inducidas por nombre o igualdad de valor y metricas de 
similitud entre atributos; los resultados son comparados utilizando la distancia euclidea; segundo, 
datos originalmente jerarquicos. Para estas dos situaciones se utiliza XML como lenguaje de 
representacion. 

Lo anterior es detallado en los siguientes objetivos especificos: 

■ Estudiar y entender las propiedades de las distancias entre terminos utilizando como re- 
ferenda de inicio de este trabajo el articulo A New Context-Sensitive and Composable 
Distance for First- Order Terms. Technical Report [5], revisando las distancias entre termi- 
nos, particularmcnte la distancias de Nienhuys- Cheng y Estruch et al. y sus propiedades. 

■ Considerar XML como un lenguaje de representacion de datos sobre el cual se calcule la 
distancia entre terminos, permitiendo asf un formato de entrada mas estandar y flexible 
para las transformaciones y jerarqufas propuestas. 

■ Implementar las distancias entre terminos y un algoritmo de clasificacion para evaluar 
dichas distancias. En concrete, se propone implementar las distancias entre terminos y la 
distancia euclfdea. 
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■ Explorar enfoques de agrupacion de variables para construir jerarqui'as sobre datos pia- 
nos. Partiendo de los posibles enfoques de agrupacion de atributos (inducida por nombre 
o igualdad de valor y metricas de similitud entre atributos), se crearan jerarqui'as que 
posteriormente puedan ser utilizadas por el algoritmo de clasificacion. 

■ Aplicacion de distancias sobre conjuntos de datos y analisis de resultados. Con las jerar- 
qui'as inducidas a partir de datos pianos y los datos originalmente jerarquicos, se realizaran 
experimentos sobre los conjuntos de datos, se analizaran los resultados devueltos por el 
algoritmo de clasificacion y se estableceran las conclusiones de cada proceso con el fin de 
entender mejor el comportamiento de estas distancias y de los procesos de transformacion 
propuestos. 



1.3 Organizacion de la tesis 

Este trabajo se encuentra organizado de la siguiente manera: 

■ Capitulo [2j Antecedentes. Este capi'tulo describe aspectos generales del aprendizaje 
automatico, caracteristicas y propiedades de los metodos basados en distancias, algoritmos 
basados en distancias (particularmente el algoritmo /c-NN y algunas mejoras) y distancias 
para diferentes tipos de datos estructurados, representacion de terminos usando XML y, 
finalmente, se describen las propiedades de algunas distancias entre terminos y su definicion 
formal (profundizando en la distancia de Nienhuys-Cheng y Estruch et al.). 

■ Capitulo |3j Transfomacion de datos semi-estructurados en una representacion 
basada en terminos usando XML. En el capi'tulo [3] se hace una descripcion de las 
transformaciones realizadas para convertir datos pianos en datos jerarquicos utilizando 
como lenguaje de representacion comiin XML. Para este proceso se consideran tres fuentes 
de estructuras: igualdad de valor, jerarqui'a inducida por nombres y jerarqufa de similitud 
de atributos. Adicionalmente, se describe brevemente algunos aspectos a considerar para 
la derivacion de esquemas XML jerarquicos a partir de datos originalmente jerarquicos. 

■ Capitulo [4} Experimentos. Este capi'tulo muestra los resultados obtenidos a partir de la 
ejecucion del algoritmo de clasificacion fc-NN, utilizando varios exponentes para la funcion 
de atraccion con diferentes tipos de jerarqufas derivadas por medio de las transformaciones 
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mostradas en el capi'tulo [3j aplicando la distancia entre terminos de Nienhuys-Cheng y 
Estruch et al. y comparandolas con la distancia euclidea. Adicionalmente, se muestran 
los resultados sobre la aplicacion de distancias entre terminos sobre un conjunto de datos 
originalmente jerarquico. 

Este trabajo recopila, en el capitulo [5] las conclusiones obtenidas a partir de los resultados de 
los experimentos, algunos trabajos futuros y la publicacion realizada. 

Finalmente, se adjuntan dos apendices con el detalle de los resultados del capitulo [3] y una 
descripcion de la implement acion de las distancias entre terminos. 
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2 Antecedentes 



En este capitulo se describen algunos conceptos basicos del aprendizaje automatico, ademas 
de algunos metodos, representaciones y medidas basadas en la similitud de instancias que sir- 
ven para comprender e ilustrar los capitulos porteriores sobre la aplicacion de distancias entre 
terminos para datos pianos y jerarquicos. 



2.1 Aprendizaje automatico 



El aprendizaje automatico es el estudio de metodos computacionales que pueden aprender y 
mejorar a partir de la experiencia. Durante los ultimos aiios, varios metodos de aprendizaje han 
sido desarrollados y utilizados en muchas aplicaciones practicas. En |26j se presentan algunos de 
estos metodos: arboles de decision, redes neuronales, aprendizaje bayesiano y metodos estadisti- 
cos, aprendizaje basado en instancias, algoritmos geneticos, reglas de decision y programacion 
logica inductiva (ILP); existen otras tecnicas tambien mencionadas por otros autores como son 
los conjuntos de clasificadores y las maquinas de soporte vectorial [6]. 

Dentro de estos metodos es posible encontrar diferentes tipos de algoritmos de acuerdo con su 
funcion de salida o tarea. De ellos se pueden destacar los algoritmos de aprendizaje supervisado 
y algoritmos de aprendizaje no supervisado. El aprendizaje supervisado produce una funcion 
que establece una correspondencia entre las variables de entrada y la variable de salida deseada; 
el objetivo de su funcion es predecir esta variable de salida. Si la variable de salida es discreta es 
llamado clasificacion y si la variable de salida es un valor continuo es regresion. Los algoritmos de 
aprendizaje no supervisado estan conformados linicamente por variables de entrada, su objetivo 
es identificar relaciones entre variables o entre ejemplos; las relaciones entre las variables pueden 
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ser asociaciones, dependencias o correlaciones; las relaciones entre ejemplos son agrupamientos. 

Otro tipo de clasificacion de algoritmos de aprendizaje automatico se basa en la inteligibili- 
dad de los modelos generados. La principal ventaja de un modelo inteligible es que ofrece una 
explicacion parcial de la realidad proporcionando conocimiento sobre como las predicciones estan 
hechas. Los algoritmos con esta caracten'stica pueden ser divididos en dos grupos, dependiendo 
del lenguaje de representacion que ellos usen. El primer grupo esta formado por aprendizaje 
de arboles de decision y metodos de aprendizaje de reglas clasicas; todos estos emplean reglas 
proposicionales que tienen una expresividad restrictiva porque no pueden tener variables. Un se- 
gundo grupo esta compuesto por metodos que usan lenguajes de representacion muy expresivos 
como clausulas de Horn de primer orden, que permiten representar las reglas con caracten'sticas 
avanzadas como variables, predicados y llamado de funciones. Esta segunda familia es usualmen- 
tc Uamada programacion logica inductiva (ILP) 12J o, mas en general, programacion inductiva 

Finalmente, los algoritmos de aprendizaje tambien son clasificados como metodos perezosos o 
ansiosos. Los algoritmos perezosos son metodos basados en instancias, como por ejemplo el fc-NN 
(fc-vecinos mas cercanos). Este tipo de algoritmos utilizan enfoques conceptualmente sencillos 
para las aproximaciones de valores reales o discretos de las funciones de salida. Aprender en 
estos modelos consiste en almacenar los datos de entrenamiento presentados y, cuando una 
nueva instancia es encontrada, un grupo de ejemplos similares relacionados son recuperados de 
memoria y usados para clasificar la nueva instancia consultada. Una diferencia clave en estos 
enfoques, con respecto a otros metodos, es que pueden construir una aproximacion diferente 
de la funcion de salida para cada ejemplo que debe ser clasificado. De hecho, muchas tecnicas 
construyen solo una aproximacion local de la funcion de salida que se aplica en la vecindad de una 
nueva instancia y nunca construyen una aproximacion disefiada para tener un buen rendimiento 
sobre todo el espacio de instancias de entrada. Esto tiene ventajas significantes cuando la funcion 
objetivo es muy compleja y puede ser descrita por una coleccion de aproximaciones locales menos 
complejas [26] , 

Una desventaja de los enfoques basados en instancias es que el costo de clasificacion de 
un ejemplo nuevo puede ser muy alto; esto se debe al hecho de que casi todo el calculo tiene 
lugar en ticmpo de clasificacion y no cuando los ejemplos de entrenamiento son encontrados 
previamente. Por lo tanto, las tecnicas para la indexacion eficiente de ejemplos de entrenamiento 
son un tema significativamente practico en la reduccion del computo requerido en el momento 
de la consulta. Una segunda desventaja para muchos de estos enfoques basados en instancias, 
especialmente los enfoques del fc-NN, es que se suelen considerar todos los atributos cuando se 
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trata de recuperar en memoria los ejemplos de entrenamiento similares. Si el valor de salida 
depende linicamente de unos pocos de los muchos atributos disponibles, entonces las instancias 
que son realmente mas "similares" pueden tener una gran distancia de separacion. 



La tabla |2.1| muestra una clasificacion de algunos algoritmos de aprendizaje automatico de 
acuerdo con su inteligibilidad y la manera en que construyen su funcion de salida. 





Inteligible 


No inteligible 


Ansioso 


-Arboles de decision 
-Aprendizaje de reglas 
-Programacion Logica inductiva (ILP) 
-fc-medias 


-Redes neuronales artificiales (ANN) 
-Maquinas de soporte vectorial 
-Metodos Kernel 
-Clasificadores de bayesianos 
-Perceptron 


Perezoso 




-fc-vecinos mas cercanos (fc-NN) 
-Razonamiento basado en casos (CBR) 
-Regresion lineal ponderada local 



Tabla 2.1: Clasificacion de algoritmos de aprendizaje automatico 



2.2 Metodos basados en distancias 

El razonamiento basado en casos (CBR) es un tipo de metodo basado en instancias que 
esta relacionado con el aprendizaje basado en distancias. CBR supone que problemas similares 
tienen soluciones similares. En el aprendizaje automatico es muy comiin utilizar la similitud 
entre objetos y existen muchos metodos que se fundamentan en establecer si un nuevo objeto 
es similar a uno previamente conocido. Una manera de hacerlo es cuantificando la similitud (o 
disimilitud) entre dos objetos por medio de una medida de distancia. 

Mas precisamente, una funcion s : X x X — )• R se dice que es una funcion de similitud si 
s{xi^Xj) es mayor cuando los objetos Xi y Xj son mas similares. Por ejemplo, a continuacion se 
define la funcion s, para atributos nominales, que cuenta el mimero de coincidencias ocurridas 
en la misma posicion de una tupla [8]: 
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s: X X X R 

k=l,2 

donde Xi = {xii,Xi2), Xj = {xji,Xj2) y 

Suponiendo que xi — {a, a), X2 = (a, 6) y 2:3 = c) entonces s(a;i,a;2) = 1 y 5(2^1,2:3) — 
s(xi,a;3) = 0. Por lo tanto, xi y X2 son mas similares entre ellos que xi 6 X2 con respecto a x^. 

Al igual que la similitud, es posible cuantificar la disimilitud de dos objetos. Una funcion 
s : X X X — ^ M se dice que es una funcion de disimilitud si d{xi,Xj) es mayor cuando Xi y Xj 
son menos similares [S]. 

La relacion entre la similitud y la disimilitud es mas clara cuando se trabaja con una funcion 
de similitud (o disimilitud) normalizada [5]; es decir cuando < s,d < 1. Esto ademas permite 
expresar una funcion en terminos de la otra; es decir d=l — sos — 1 — d. 

La disimilitud es Uamada distancia o metrica d cuando satisface las propiedades de no ne- 
gatividad, reflexivilidad, simetna y desigualdad triangular, definidas de la siguiente manera: 

1. No negatividad: d{xi,Xj) > Oyxi,Xj G X. 

2. Reflexividad: d{xi, xj) = Xi = Xj. 

3. Simetri'a: d{xi,Xj) = d{xj,Xi). 

4. Desigualdad triangular: d{xi]Xj) < d{xi,Xk) + d{xk,Xj),\fxi,Xj;xk G X. 

Estas propiedades muestran la interpretacion de la distancia de manera mas natural que una 
funcion de disimilitud. La propiedad de no negatividad nos garantiza que la distancia entre dos 
objetos Xi y xj siempre es mayor o igual a cero; la reflexividad asegura que si la distancia entre 




1, si Xik — -^jk 

0, otro caso 
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dos objetos es cero, entonces Xi y Xj son iguales. De igual manera, la simetria garantiza que 
la distancia entre dos objetos no depende del orden en que son comparados. Finalmente, si no 
se cumple la desigualdad triangular puede suceder que se obtienen resultados no deseables, por 
ejemplo, si los objetos Xi y Xj son muy similares a Xk, debe esperarse que Xi y Xj tambien sean 
muy similares. 

Una de las principales ventajas de los metodos basados en distancias es que el algoritmo se 
puede ajustar para un problema especi'fico por medio de la definicion de una distancia adecuada; 
es decir, la distancia es un parametro del algoritmo de aprendizaje. Igualmente, un algoritmo 
puede ser usado para cualquier representacion de datos si una funcion de distancia se define 
sobre el. Por ejemplo, si se utiliza las distancias para datos proposicionales, en caso de tener 
datos estructurados, la mayoria de los metodos de aprendizaje se pueden usar directamente 
utilizando una definicion de distancia para el tipo de datos manejado. Lo anterior implica que 
el rendimiento del algoritmo puede variar en funcion de la distancia utilizada [5]. 

Las funciones de distancia mas comunes utilizadas para representaciones basadas en tuplas 
son la distancia euclfdea, la distancia de Manhattan, la distancia de Chebychev, la distancia 
Minkowski y la distancia de Mahalanobis. Formalmente, definimos estas distancias de la siguiente 
manera: 

Sea X una instancia arbitrariamente descrita por el vector de caracteri'sticas |26j : 



donde ar{x) denota el valor de r-esimo atributo de la instancia x] entonces la distancia entre 
dos instancias Xi y Xj, es definida por d{xi,Xj), para cada una de las siguientes distancias: 

■ Distancia euclfdea 



{ai{x),a2{x),...,an{x)) 




■ Distancia de Manhattan 



n 
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■ Distancia de Chebychev 

d{xi,Xj) = maxi=i^,,,^n \{ar{xi) - ar{xj))\ 

■ Distancia de Minkowski 

/ „ 

d{Xi,Xj) = I ^ \{arixi) - ar{Xj))\ 
\i=i 

■ Distancia de Mahalanobis 

d{xi,Xj) = (^{ar{xi) - ar{xj)y S~'^ {ar{Xi) - ar{Xj))^ 
donde 5* es la matriz de covarianza 

La distancia de Minkowski es una generalizacion de las diatancias eucli'dea, Manhattan y 
Chebychev, donde un parametro p debe ser definido. Si p = 1, es la distancia de Manhattan, si 
p = 2, es la distancia euclfdea y finalmente si p = oo, es la distancia de Chebychev. Adicional- 
mente, la distancia eucli'dea es un caso particular de la distancia de Mahalanobis: en la distancia 
euclfdea no se tiene en cuenta la correlacion entre los atributos. 

Los mctodos basados en distancias consideran que cada ejemplo corresponde a un punto en el 
espacio metrico y el rendimiento de sus predicciones, mediante la comparacion de la proximidad, 
difieren, en gran parte, en la manera en que son elegidos los ejemplos. A continuacion se hace 
una breve descripcion de los metodos mas comunes; el fc-vecinos mas cercanos, el discriminante 
de Fisher y el aprendizaje por cuantificacion vectorial son metodos supervisados y la agrupacion 
jerarquica y /c-medias son metodos no supervisados. 



■ /c-vecinos mas cercanos: es uno de los algoritmos mas analizados en aprendizaje au- 
tomatico. Este algoritmo permite aproximar funciones de salida para valores discretos o 
continuos. Asume que las instancias corresponden a un punto en un espacio metrico n- 
dimensional. El valor de la funcion de salida para un nuevo ejemplo es estimado de los 
valores conocidos de los k ejemplos de entrenamiento mas cercanos i2S]. Este algoritmo se 
describe con mas detalle en la seccion [2?3l 

■ Discriminante de Fisher: cada clase es representada por medio un centroide que es un 
punto que minimiza la suma de la distancia para los elementos que pertenecen a una clase; 
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un nuevo ejemplo es marcado de acuerdo con la etiqueta de su centroide mas cercano. 
Este metodo es ansioso y los ejemplos son removidos de la memoria una vez que el mo- 
delo (conjunto de centroides) haya sido obtenido. Dado que el espacio de representacion 
esta compuesto por tuplas de datos nominales o numericos, se puede derivar un modelo 
mas expresivo. Los centriodes de las clases adyacentes son unidos por Imeas rectas y la 
mediana de estas Imeas son las reglas discriminantes [S] . 

■ Aprendizaje por cuantificacion vectorial (LVQ): El modelo aprendido es una colec- 
cion de prototipos donde un ejemplo es clasificado de acuerdo con la proximidad a estos 
prototipos. Inicialmente los prototipos son elegidos al azar, y sus posiciones se actualizan 
hasta que se alcanza un umbral. Este proceso se realiza de manera iterativa. Primero, un 
ejemplo del conjunto de entrenamiento es elegido y el prototipo mas cercano es determina- 
do. Dependiendo de las etiquetas, tanto del ejemplo como las del prototipo, la posicion del 
prototipo Gambia. Si las ambas etiquetas emparejan, el prototipo se acerca mas al ejemplo 

m. 

m Agrupamiento jerarquico: este algoritmo se basa en la construccion de un arbol en el 
que las hojas son los clementos del conjunto de ejemplos, el resto son nodos con subconjun- 
tos de ejemplos que pueden ser utilizados como particionamicnto del espacio. Este arbol 
de grupos es tambien Uamado dendrograma. Existen dos metodos para construir el arbol: 
1) Aglomerativo. El arbol se va construyendo empezando por la hojas, hasta Uegar a la 
raiz. Inicialmente, cada ejemplo es un grupo y se van aglomerando los grupos para formar 
conjuntos mas numerosos hasta la rafz, que contiene todos los ejemplos. 2) Desaglomera- 
tivo. Se parte de la rafz, que es un solo grupo conteniendo a todos los ejemplos, y se hacen 
divisiones paulatinas hasta Uegar a las hojas que representa a la situacion en que cada 
ejemplo es un grupo |22J. 

La forma en que los grupos son divididos o fusionados esta guiada por el principio en 
que los elementos mas cercanos deben permanecer en el mismo grupo. En consecuencia, 
es necesario conocer si dos grupos son cercanos. Teniendo en cuenta que la funcion de 
distancia es definida solo para un par de elementos, es necesario extenderla para medir la 
distancia entre grupos [8] [2^ . Las mas comunes son: 

• Enlace simple: En este metodo, la distancia entre dos grupos es la distancia entre 
sus miembros mas proximos, es decir, si U y V son dos grupos, entonces: 

duv = min {dij : i £U,i ^V} 
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• Enlace completo: la distancia entre dos grupos es la distancia entre sus miembros 
mas alejados, es decir: 



• Enlace promedio: la distancia entre dos grupos es la distancia media entre todos 
Ids pares de unidades, donde un elemento del par es de un grupo, y el otro elemento 
pertenece al otro grupo, es decir, si n„ es el mimero de unidades en [/, y riy es el 
mimero de unidades en V , entonces: 



En cuanto a los metodos aglomerativos , el par de grupos que estan mas cerca se fusionaran 
de acuerdo a la distancia de enlace. Si la distancia es el enlace promedio entonces los 
centroides deben ser recalculados. El proceso continiia hasta que un mimero previamente 
fijado de los grupos es logrado o el dendrograma completo es construido [8] |22j. 

■ /c-medias: Los metodos de particionamiento son otro tipo iniportante de tecnicas de agru- 
pamiento. Los grupos son mejorados gradualmente de acuerdo con una funcion de optimi- 
zacion. Entre ellos el mas conocido es fc-medias. Inicialmente un conjunto de centroides son 
elegidos al azar; luego, los ejemplos son asignados a su centroide mas cercano formando 
grupos y el centriode de los grupos nuevos es calculado. Este proceso se repite hasta que 
los centroides no cambien. Aunque este algoritmo ha tenido exito en aplicaciones indus- 
triales y cientificas, tiene algunos inconvenientes; el mas significativo es que su desempeno 
depende fuertemente de los supuestos iniciales y del mimero de centroides propuestos [5]. 

Como se ha dicho, el algoritmo de aprendizaje de fc-vecinos mas cercanos, es uno de los 
algoritmos mas analizados en para el aprendizaje automatico. A continuacion se introduce este 
algoritmo, incluyendo algunas variantes comiinmente utilizadas para este metodo. 



duv = max {dij : i E U,j G V} 
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2.3 /c-vecinos mas cercanos /c-NN 



El algoritmo fc-NN, presentado en |26| . asume que todas las instancias corresponden a puntos 
en un espacio n-dimensional aunque el algoritmo funciona igualmente para cualquier otro 
tipo de espacio, incluso sino es metrico. Los vecinos mas cercanos de un ejemplo son definidos 
en terminos de una distancia. Usualmente se utiliza la distancia euch'dea; sin embargo, como se 
menciono anteriormente, per ser un algoritmo basado en distancias, es posible utilizar cualquier 
otra distancia: la distancia de Manhattan, la distancia de Chebychev, etc. 



En el aprendizaje del vecino mas cercano, la funcion de salida puede ser un valor discrete 
(clasificacion) o continuo (regresion). Considerando primero el aprendizaje para funciones de 
salida de valores discretos, la tabla 2.2 muestra el algoritmo de fc-NN para aproximar esta 
funcion definida de la forma / : 3?" — > V, donde V es un conjunto finito de clases {vi, . . . , Vs}. 
El valor f{xq), devuelto por el algoritmo como su estimacion de f{xq), es el valor mas comiin 
de / entre los fc ejemplos de entrenamiento mas cercanos a Xq. Si se elige fc = 1, entonces el 
algoritmo asigna a f{xq) el valor de f{xi) donde xi es la instancia de entrenamiento mas cercana 
a Xq. Para valores grandes de k, el algoritmo asigna el valor mas comiin entre los k ejemplos 
mas cercanos. 



Algoritmo de entrenamiento: 

- Por cada ejemplo de entrenamiento {x, f{x)), se adiciona un ejemplo a la lista de 
ejemplos de entrenamiento. 

Algoritmo de clasificacion: 

- Dada una instancia de consulta Xq para ser clasificada, 

- Si xi, . . . ,Xk denota las fc instancias de ejemplos de entrenamiento que son mas 
cercanas a Xq. 

- Retorna 

f{xq) < — argmaxy(zv Y.i=i ^i""^ fi^i)) 



donde S{a, b) ~ 1 si a ^ b y donde S{a, b) — en otro caso. 



Tabla 2.2: Algoritmo de fc-NN para aproximar una funcion de valores discretos 
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Para funciones de salida de valores continuos, el algoritmo es facilmente adaptable; el al- 
goritmo calcula el valor medio de los k ejemplos de entrenamiento mas cercanos, en lugar de 
calcular el valor mas comiin. Mas precisamente, para aproximar la funcion de salida de valores 
reales / : 3?" — > 3? se remplaza f{xq), utilizado en el algoritmo de valores discretos, por: 



k 




Un refinamiento para el algoritmo de fc-NN puede ser realizado por medio de la funcion de 
atraccion, denominada w; este refinamiento consiste en poderar la contribucion de cada uno de 
los fc-vecinos de acuerdo con su distancia para el punto de consulta Xq, dando mayor peso a los 
vecinos mas cercanos. Por ejemplo, en el algoritmo de la tabla [2?2| el cual aproxima funciones de 
salida de valores discretos, es posible ponderar el voto de cada vecino de acuerdo con el cuadrado 
inverso de su distancia de Xq. Esto puede ser logrado reemplazando f{xq) por: 

k 

f{xq) i — argmaXy(zv^WiS(v, f{xi)) 

i=l 

donde, 

1 

Esta mejora de ponderar los k vecinos mas cercanos para un nuevo ejemplo, puede suavizar 
el impacto de los ejemplos de entrenamiento aislados o con ruido. Adicionalmente, es posible 
considerar que el exponente cuadratico, utilizado en el denominador de w, puede ser modificado 
por una variable denominada pardmetro de atraccion que permite incrementar o decrementar la 
ponderacion Wi de manera que, mientras mayor sea esta variable, menos importante es k. 

De igual manera, para funciones de salida con valores reales, la distancia ponderada de instan- 
cias utiliza un denominador constante que normaliza las contribuciones de varias ponderaciones. 



15 



De este modo, la funcion f{xq) puede ser remplazada por: 



k 



El algoritnio /c-vccinos mas cercanos es uno de los algoritmos mas analizados en el aprendizaje 
automatico esto se debe a su simplicidad y, por otra parte, a la edad que tiene. Es un metodo 
inductivo de inferencia muy eficaz en muchos problemas practices, especialmente cuando utiliza 
mejoras como la distancia ponderada; es robusto ante los ruidos de datos y suficientemente 
efectivo en conjuntos de datos grandes. 



2.4 Distancias para datos estructurados y semi-estructu- 
rados 



En el aprendizaje automatico, los metodos basados en distancias pueden incorporar funciones 
de similitud definidas sobre datos estructurados (por ejemplo una tabla), semi-estructurados 
(por ejemplo un documento XML) o no estructurados (por ejemplo un documento de texto). 
Algunos metodos basados en similitud de datos estructurados son aplicados, en gran medida, 
a semi-estructurados; sin embargo, estos datos que no son completamente estructurados, es 
necesario aplicar tecnicas que requieren procesos mas complejos. Las distancias entre grafos 
(o en particular, distancias entre arboles) son comiinmente utilizadas como una medida de 
similitud para datos semi-estructurados. A continuacion se describen algunos aspectos generales 
sobre datos estructurados y semi-estructurados y, finalmente, se detallan metodos basados en 
similitud de acuerdo con varies tipos de datos. 
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2.4.1 Datos estructurados y semi-estructurados 



La principal difcrcncia que existe entre los datos estructurados y semi-estructurados esta re- 
lacionada, obviamente, con la rigidez de su estructura; para los datos estructurados, un conjunto 
de instancias son definidas por variables con tipos de datos iguales y unicamente cambia el valor 
de esta variable (por ejemplo una tupla de tamano fijo de valores reales, una imagen de n x to 
pixeles, etc.); los datos semi-estructurados estan conformados fundamentalmente por etiquetas 
que, aunque ofrecen cierto nivel estructural, tambien son altamente flexibles, con diferentes ti- 
pos de datos y dominios, ademas de datos no estructurados (como textos, imagenes, etc.) que 
adicionan dificultad a tareas de consulta y por lo tanto a la aplicacion de medotos de aprendizaje 
(por ejemplo un documento en XML, un termino logico-funcional, una secuencia de ADN, etc.). 

La definicion de funciones de similitud entre objetos semi-estructurados se basa, en gran 
medida, en su parte estructural y la utilizacion de aquellas etiquetas existentes para un objeto; 
no obstante, existen tecnicas para tratar los segmentos no estructurados de acuerdo con su 
contenido; por ejemplo, el procesamiento de lenguaje natural ofrece tecnicas que permiten medir 
la similitud lingiii'stica de objetos por medio de analisis lexico, sintactico y semantico. 

En un documento semi-estructurado, en aquellas partes que contienen algun tipo de estruc- 
tura, se pueden aplicar funciones de similitud existentes para datos estructurados; aunque es 
posible encontrar diferentes dominios sobre variables conceptualmente iguales que obliga, en 
algunas ocasiones, a utilizar una serie de transformaciones y aplicar tecnicas que permitan crear 
dominios comparables. 

En los datos semi-estructurados, por sus caracteristicas de etiquetado, es usual que se creen 
estructuras jerarquicas. Esto ha hecho que muchos casos hayan sido abordados mediante re- 
presentaciones basadas en grafos o arboles; en consecuencia, es comiin que las funciones de 
distancia empleadas para medir la similitud entre instancias se basen tambien en distancias 
para este mismo tipo de datos. La similitud sobre datos semi-estructurados, han sido utilizadas 
principalmente para agrupacion de documentos, y para detectar cambios entre estos. Algunos 
enfoques pueden ser vistos en |33j, [15], [34| . 
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2.4.2 Distancias entre datos 



A continuacion se decriben algunos metodos basados en similitud que son empleados acuerdo 
con los tipos datos mas comunes (prensentados por [5], [TT] y [1]): conjuntos, listas, arboles y 
grafos. Las distancias entre terminos son un tema central en este trabajo, por esta razon son 
tratadas en la seccion 12.61 

■ Conjuntos: 

La cardinalidad de la diferencia simetrica entre dos conjuntos finitos Ay B es una funcion 
de distancia | {A — B) U {B — A) \ que satisface la propiedad de identidad y simetrfa. La 
desigualdad triangular puede verse demostrando que para cualquier conjunto finito C, si 
el elemento x esta cn \ {A — B) U {B — A) \ cntonces x esta en | {A — C) U {C — A) \ o en 



\{C-B)\j{B-C)\,\o que implica que \ {A - B) U {B - A) \<\ {A - C) U {C - A) \ + \ 



{C — B) U {B — C) \. Cuando esta metrica es empleada, la distancia entre dos conjuntos 
es dada por el niimero de elementos que tienen en comiin. Los elementos mas comu- 
nes y los elementos mas cercanos. Por ejemplo, dado el siguiente conjunto de secuencias, 
A = {a&, a"*}, B = {ab,d'^} y C = {ab,a^} entonces d{A,B) = d{A,C) = 2. Esta funcion 
asume que la distancia 6 1 y) ^ 1 si x ^ otro caso) ha sido previamente defini- 
da sobre los elementos construidos cn cl conjunto; por lo tanto, la diferencia simetrica es 
una distancia que considera que cualquier elemento del conjunto es igualmente diferente al 
resto. Por ejemplo, esta distancia muestra que el elemento d'^ E B y ^ C son diferentes 
a, a* E A, cuando intuitivamente es mas similar a a** que d^. 

En algunos contextos es importante capturar las diferencias entre los elementos de los 
conjuntos de una manera mas precisa a como lo hace la diferencia simetrica. La distancia 
de HausdorjJ, por ejemplo, es una distancia que tiene en cuenta los elementos; y esta 
distancia esta definida como: 




d{a, b), sup inf 

beB aeA 




donde A y B son dos conjuntos y •) es una distancia definida sobre elementos. 
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■ Listas: 

Una de las funciones para listas es la distancia de Hamming; Esta funcion es usada cuando 
las listas tienen longitud igual; la distancia entre dos listas es el niimero de posiciones 
para las cualcs los simbolos son difcrcntcs. Por ejcmplo, dada la secuencia si = aabb y 
S2 = accb entonces la distancia d{si,S2) = 2. La distancia de edicion (tambion conoci- 
da como Levenshtein) , es una generalizacion de la distancia de Hamming, que pcrmite 
manejar secuencias con longitudes variables. Esta distancia cuenta el niimero mmimo de 
operaciones dc climinacion, insercion y sustitucion requeridas para transformar una se- 
cuencia en otra. Estas operaciones pueden ser ponderadas dc acuerdo con el contexto del 
problema. Por lo tanto, la distancia corresponde a la transformacion con el costo mas bajo. 
A continuacion se describe un ejemplo para esta distancia: 

Sea alfabcto E = {a,b,c} y S* un espacio finito dc todas las listas construidas sobrc los 
sfmbolos a,b y c. Se asigna un costo de 1 para inserciones y eliminaciones y, 2 para las 
sustituciones. La distancia de edicion entre dos secuencias si = aabb y S2 = bbcc puede ser 
especificada por: 

aabb 

bbcc 

Entonces si es transformada en S2 borrando los dos primeros sfmbolos y luego adicionando 
dos simbolos al final: 

si = aabb abb — >■ 66 — )• bbc — )• bbcc = S2 

Lo anterior hacc que d(si,S2) = 4, esto es equivalente a transformar S2 en si borrando los 
dos sfmbolos b y luego adicionando los dos sfmbolos a. Las otras transformaciones pueden 
no ser optimas, por ejemplo: 

aabb 
bbcc 
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La secuencia si es transformacla a ,S2 removiendo el primer simbolo a (con costo 1); se 
sustituye el segundo simbolo a por 6 (con costo 2) , luego se cambia el tercer simbolo b por 
c (con costo 2), finalmente se adiciona c al final de la secuencia (con costo 1) 



si = aabb — >■ abb bbb — >■ bbc — ^ bbcc = 

El costo total de esta transformacion es 6; que es mayor a la primera transformacion que 
tenia un costo de 4; por esa razon, esta ultima no es una trasformacion optima. 

■ Ar boles y grafos: 

La distancia dc cdicion tambien puede ser utilizada para grafos y arboles etiquetados. 
Formalmente, un grafo puede ser definido g{V, a, (3) donde V es un conjunto finito de 
vertices y a : F — )• L es un nodo y ^ -.V xV ^ L es una funcion de etiquetado de aristas. 
En este contexto, los grafos son siempre completos si las aristas faltantes son consideradas 
como una etiqueta especial vaci'a. 

Frecuentemente, se utiliza el concepto de ecgm {error- correcting graph matching) el cual 
es un conjunto de operaciones de edicion para transformar un grafo en otro y el costo 
asociado a un ecgm. 

Formalmente, sean gi = (Vi,ai,^i) y g2 = (l^,Q:2,/32) dos grafos. El ecgm de gi a g2 es 
una funcion biyectiva / : Vi — )• V2 donde C Fi y V2 C ^2- 

El costo de un ecgm f : Vi ^ V2 de un grafo gi = {V\,ax,j3\) yg2 = (V2,a2,/32) es dado 
por: 

donde c„s, c„<j y c„i son el costo de sustitucion, eliminacion e insercion de un nodo, 
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respectivamente; e igualmente, Ces, Ced y Cei son el costo de sustitucion, eliminacion e 
insercion de una arista. 

Finalmente, la mmima distancia entre dos grafos gi y g2 es el mi'nimo costo obtenido sobre 
todos los ecgm de gi y 52- Por ejemplo: 



Sean gi = {Vi,ai,Pi) y .92 = (V2,a2,/32) dos grafos representados en la figura 2.1 



XX XX 




Y Z 

(a) Grafo gi (b) Grafo 32 

Figura 2.1: Ejemplo de distancia entre dos grafos 



• Vi^l, 2, 3; V2 = {4, 5, 6}; L = {X, Y, Z, a, b, c, null}. 

• ai -.1^ X,2^ X,3^Y 

• a2 : 4 X, 5 K> X, 6 Z 

• /3i : (1, 2) ^ a, (1, 3) ^ b, (2, 3) ^ b 

• ^2 : (4,5) ^ a, (4, 6) ^ a, (5,6) ^ c 



Un posible ecgm es / : 1 4, 2 5 con V^i = {1, 2} y V2 = {4, 5}. Aplicando el ecgm los 
nodos 1 y 2 son sustituidos por 4 y 5, respectivamente. En consecuencia, la arista (1, 2) es 
sustituida por (4,5). Todas estas sustituciones son identicas en el sentido en que no hay 
cambios en la etiquetas; El nodo 3 y las aristas 1, 3 y 2, 3 son eliminadas y el nodo 6 junto 
con sus aristas (4, 6) y (5, 6) son insertados. 

Si el costo de la funcion es definido de la siguiente manera: 



21 



jo, si ai{v) = a2iv) 
I oo, otro caso 

cUv) = i,yveVi-Vi 

Cm{v) = l,yveV2-V2 



Ces(e) 



0, si/3i(i;) =/?2(t;) 
oo, otro caso 



Cediv) = 0,ye e El - El 



Cc^iv) ^ 0,ye e E2 - E2 



Se puede ver facilmente que d(gi,g2) = c{f) = 2, puesto que el costo de eliminacion o 
insercion de un nodo es igual a 1 (mientras que el costo de insercion o eliminacion de una 
arista es 0). 



2.5 Representacion basada en terminos y XML 



Ademas de la popularidad alcanzada por XML para la representacion y el intercambio de 
datos en la Web [18], el principal interes de utilizar XML en este trabajo es la capacidad 
de representar estructuras como listas y arboles; por lo anterior, XML permite representar 
objetos basados en terminos. A continuacion se hace una corta descripcion de este tipo de 
representaciones. 
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2.5.1 Representacion basada en terminos 



La representacion basada en terminos busca obtener representaciones compactas donde los 
objetos estan representados por medio de funtores los cuales son simbolos de funcion no- 
evaluadas cuyos argumentos son terminos tan complejos como un problema lo requiera. En 
consecuencia, los funtores pueden ser usados para representar tamaiios flexibles de tipos de da- 
tos ordenados tales como listas y arboles. Esto tiene la ventaja de que todos los datos relativos a 
un objeto se mantienen unidos [8] [25]. El siguiente ejemplo muestra una representacion basada 
en terminos de un objeto del conjunto de datos de Mushroom (UCI machine learning repository 

my- 

Mushroom ( 

cap(CONVEX, SMOOTH, WHITE), 
BRUISES, ALMOND, 

gill (FREE, CROWDED, NARROW, WHITE), 

stalk (TAPERING, BULBOUS, surf ace (SMOOTH, SMOOTH), color(WHITE, WHITE)), 
veil (PARTIAL, WHITE), 
ring(ONE, PENDANT), 
spore (print (BROWN) ) , 
SEVERAL, WOODS) 

El sfmbolo de predicado solo se refiere al objeto, mientras los funtores se refieren a partes de 
los objetos y las constantes se refieren a propiedades de estas partes. Por lo tanto, Mushroom 
es una tupla compuesta por cap, gill, stalk, veil, ring y spore, y varios atributos adicionales. A 
su vez, cada tupla puede estar compuesta de manera anidada por otras tuplas y atributos. La 
fi-gura |2.2| muestra una representacion en arbol del ejemplo anterior. 

Una de las principales caracteri'sticas de la representacion basada en terminos es que puede ser 
aplicada de una manera mas natural que otros paradigmas que utilizan ejemplos con estructuras 
planas como datos tabulares, textos, etc. Las estructuras planas pueden obligar a tener campos 
en bianco (por ausencia de caracterfsticas) y no representar claramente relaciones jerarquicas 
entre variables. 
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Figura 2.2: Representacion en arbol de un objeto de Mushroom. 



2.5.2 XML 

XML es un lenguaje textual que ha ganado popularidad para la representacion y el inter- 
cambio de datos en la Web. Los componentes basicos son elementos etiquetados que tienen una 
secuencia de cero o mas pares atributo- valor y una secuencia de cero o mas subelementos. Los 
subelementos pueden ser ellos mismos los elementos marcados o pueden ser segmentos de datos 
de texto sin etiqueta. Debido a que XML se define como un lenguaje textual y no como un 
modelo de datos, un documento XML siempre tiene un orden implfcito (el orden puede o no ser 
relevante, sin embargo, es inevitable en una representacion textual) |18| . 
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XML permite jerarquizar y estructurar la informacion, describir los contenidos dentro del 
mismo documento y reutilizar partes del mismo; por esta razon un documento XML permite la 
representacion de jerarquias y estructuras complejas que, al igual que la representacion basada 
en terminos, es mas natural que estructuras planas; sin embargo, XML no es un termino y deben 
considerarse aspectos como el orden de los elementos y la ausencia de caracterfsticas. 



Un documento XML puede ser convertido en un arbol de terminos funcionales usando listas 
y este puede ser tratado en el marco de programacion logico-funcional |22) . La figura 2.3 muestra 
una representacion en XML del objeto del ejemplo anterior. 

<Mu3hrooni> 
<cap> 

<3hape>CONVEX</3hape> 
<3urf ace>SMOOTH</3urf ace> 
<color>WllITE</cnlor> 

</cap> 

<brut3e3>BRDISES</brvii3e3> 
< o do r >ALMOErD< / o do r > 
<gilL> 

<attachjiient>FREE</attachmeiit> 

<3pacing>CKOWDED</3pacing> 

<3ise>NAI!KOW</3ise> 

<color>WHITE</color> 
</giLl> 
<3tal]r> 

< shap e >TAPERING< / 3li ape > 
<root>EnLBOnS</root> 
<3urf ace> 

<ab OTe_rin g >SMOOTH </ ab ove_r in g> 

<below_ring >SM0OTH< /below_riiig> 
</3urf ace> 
<color> 

<above_ring >WHITE< /above_ring> 
<below_ring >WJ1ITE< /below_ring> 

</color> 
</3talt> 
<veil> 

<type>PARTIAL</ti'pe> 

<color>WllITE</color> 
</veil> 
<ring> 

<nuiiib e r >OHE< /numb e r > 

< t VP e >PENDANT < / 1 i'p e > 
</ring> 

<3pore> 

<print> 

<color>BKOBH</color> 

</print> 
</ 3pore> 

<population>SEVERAl</popvilation> 
<habitat>WOODS</habitat> 
</Mu3tirooiiL> 

Figura 2.3: Representacion en XML de un objeto basado en terminos. 
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2.6 Distancias entre terminos 



Las distancias entre terminos son distancias muy adecuadas para la inferencia inductiva 
porque incorporan propiedades adicionales sobre las distancias tradicionales. Las distancias entre 
terminos mas relevantes son la distancia propuesta por Nienhuys-Cheng [2H] y la distancia de 
J. Ramon et al. [3T]. Cada una de estas dos distancias cuenta con propiedades especfficas que 
las hacen muy diferentes entre si. Por otra parte, V. Estruch [10 propone una distancia entre 
atomos/tcrminos que busca integrar los beneficios de las distancias anteriores. 

A continuacion se describen las propiedades generales de las distancias entre terminos y a 
que distancias estan asociadas estas propiedades; posteriormente, se presenta la notacion para 
definir las distancias de Nienhuys-Cheng, J. Ramon et al. y Estruch et al.; finalmente se definen 
estas distancias (la distancia de Nienhuys-Cheng y Estruch et al. son definidas en las secciones 



2.7 y 2.8 respectivamente) . 



2.6.1 Propiedades generales para las distancias entre terminos 



Las propiedades generales de las distancias entre terminos (definidas en (TU]) son: 



■ Sensibilidad del contexto: Es la posibilidad de considerar donde ocurren las diferencias 
entre dos terminos, de manera que las diferencias de las ocurrencias de sfmbolos que ocurren 
en posiciones mas profundas cuentan menos, ya a que estas ofrecen menos inforniacion. 
Por ejemplo, la distancia entre p{a) y p{b) debe ser mayor que la distancia entre p{f{a)) 

ypifib))- 

■ Facil normalizacion: es muy litil trabajar con distancias que puedan ser normalizadas. 
Por ejemplo aquellas que devuelven un valor real pueden ser facilmente normalizadas. 

■ Diferencias repetidas: consiste en manejar apropiadamente las diferencias repetidas 
entre los terminos. Por ejemplo si r = p{a,a), s = p{b,b) y t — p{c,d), intuitivamente se 
espera que los terminos r y s scan mas cercanos que r y t (6 s y t). 

■ Tamano de las diferencias: esta propiedad consiste en que si el tamaho de los termi- 
nos se incrementa, entonces la distancia debe ser mayor. Por ejemplo, si la distancia 
d{p{a),p{bj) — 1/2 entonces la distancia d{p{a) , p{f (c))) debe ser mayor a 1/2. 
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■ Manejo de las variables: las variables son muy utiles cuando falta parte de la estructura 
de un objeto, ya que en caso de no existir, se requiere de conceptos extras para manejar 
simbolos de variables. 

■ Componibilidad: permite definir las funciones de distancia para tuplas, combinando las 
funciones de distancia definidas sobre tipos basicos sobre los cuales se construye esta tupla. 
Comrinmente, esta combinacion es hecha como una combinacion de distancias base. 

■ Ponderaciones: consistc en dar mayor o menor pondcracion para posiciones especi'ficas 
de un termino sobre otros. Por ejemplo, la distancia entre f{a) y f{b) puede incrementarse 
si estos terminos son reescritos como f{di{d2{a))) y f{di{d2{b))). 

La tabla |2.3| muestra las propiedades para las distancias de Nienhuys-Cheng, J. Ramon et 
al. y Estruch et al. La distancia de Nienhuys-Cheng solo tiene en cuenta la componibilidad, la 
normalizacion y, aunque no siempre, el contexto en el que las diferencias se producen. Por el 
contrario, la distancia de J. Ramon et al. a pesar de cumplir con muchas de las propiedades, 
adolece de no cumplir facilmente la propiedad de normalizacion y componibilidad y, al igual que 
la distancia de Nienhuys-Cheng, no siempre cumple la sensibilidad de contexto. Obviamente, la 
distancia de Estruch et al., por tratarse de un distancia que Integra las propiedades de las dos 
distancias anteriores cumple, directa o indirectamente, todas las propiedades. 





Nienhuys-Cheng 


J. Ramon ct al. 


Estruch ct al. 


Contexto 


No siempre 


No siempre 
(depcndicndo de la pondcracion usada) 


Sf 


Normalizacion 


Sf 


No cs facil 


Sf 


Repeticiones 


No 


Sf 


Sf 


Taniano 


No 


Sf 


Sf 


Variables 


Indirectamente 


Sf 


Indirectamente 


Componibilidad 


Sf 


Diffcil 


Sf 


Ponderaciones 


No 


Sf 


Indirectamente 



Tabla 2.3: Propiedades de las distancias entre terminos [TU] . 
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2.6.2 Notacion [ilOj 



Sea £ un lenguaje de primer orden definido sobre E = (C, J^, 11), donde C es un conjunto de 
constantes, y T (H, respectivamente) es una familia indexada en N (enteros no negatives), donde 
J^n (Iln) es un conjunto de la funcion aria de sfmbolos de predicado. Los atomos y terminos 
son construidos, como es usual, de S. El simbolo rai'z y la aridad de una expresion t esta dado por 
las funciones Root[t) y Arity(t), respectivamente. Por lo tanto, siendo t = p{a, f{b)), Root(t) = p 
y Arity{t) = 2. 

Considerando la representacion habitual de t como un arbol etiquetado, las ocurrencias son 
secuencias finitas de niimeros positives (separados por puntos) que representan una ruta de 
acceso en t. Se supone que cada ocurrencia siempre esta encabezada por un sfmbolo especial 
(imph'cito) A, el cual denota la ocurrencia vaci'a. El conjunto de todas las ocurrencias de t es 
denotado por 0{t). Para este caso, 0{t) — {A, 1, 2, 2.1}. Se utilizan letras miniisculas (indexadas) 
o', o, oi, 02, . . . para representar las ocurrencias. La longitud de una ocurrencia o, Length{o) , es 
el mimero de elementos en o (excluyendo A). Por ejemplo, Length{2.l) — 2, Length{2) = 1 y 
Length(X) = 0. Adicionalmente, si o S 0{t) entonces t\o representa el subtermino de t en la 
ocurrencia o. En el ejemplo anterior, donde t = p{a,f{b)), Root{t) = p, t\i = a, t|2 = f{b), 
A'i.i — b. En cualquier caso, siempre se tiene que t\\ — t. Para Pre{o), se denota el conjunto 
de todas los prefijos de las ocurrencias de o diferentes de o. Por ejemplo, Pre(2.1) = {A, 2}, 
Pre{2) — {A} and Pre{\) = 0. Dos expresiones s y t son compatibles (denotado por la funcion 
booleana Compatible{s,t)) si Root{s) = Root(t) y Arity{s) — Arityit). De lo contrario, se dice 
que sy t son incompatibles {^Compatible's, t)). 



2.6.3 Definicion de las distancias entre terminos 



A continuacion se define la distancia de J. Ramon et al. Las distancias de Nienhuys- Cheng 



y Estruch et al. son definidas en el seccion 2.7 y 2.8 

Distancia de J. Ramon et al. 

La distancia J. Ramon et al. [TU], se basa en las diferencias sintacticas con relacion a su 
operador Igg (least general generalisation [30]); adicionalmente utiliza una funcion de tamafio 
para calcular esta distancia. El tamaho es definido como Size{t) = {F,V), donde F cuenta el 
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numero de predicados y si'mbolos de funcion que ocurren en t; V es la suma de la frecuencia al 
cuadrado de la aparicion de cada variable en t. 

Dados dos terminos s y t la distancia de J. Ramon et al., denotada por dfi, es definida de la 
siguiente manera: 

dfi{s,t) ~ [Size{s) — Size{lgg{s,t))] + [Size{t) — Size{lgg{s,t))] 

Esta distancia devuelve un par de valores {F, V) que expresa que tan diferentes son los 
terminos de funcion y los si'mbolos de variables. Por ejemplo, si s = p(a, b) y t = p{c, d) y se 
conoce que el lgg{s,t) —p{X,Y), entonces: 

Size{s) = (3,0) 
Size{t) = (3,0) 
Sizeilgg{s,t)) ^ (1,2) 

dnis, t) = [(3, 0) - (1, 2)] + [(3, 0) - (1, 2)] = (2, -2) + (2, -2) = (4, -4) 

Debido a que su funcion de salida no devuelve un valor numerico, sino un par de valores, 
es difi'cil la aplicacion directa de esta distancia sobre algoritmos de clasificacion tradicionales 
basados en distancias. 



2.7 Distancia de Nienhuys- Cheng |28 



La distancia de Nienhuys-Cheng, como se menciono anteriormente en la seccion 2.6.1 tiene 
en cuenta la profundidad de las ocurrencias de sfmbolos, de manera que aquellas diferencias que 
ocurren mas cerca del elemento rai'z cuenta mas. 

Dadas dos expresiones, s — so(si, . . . , Sn) y t — to(ti, . . . , tn), la distancia de Nienhuys- 
Cheng, denotada por dN{s,t), es definida recursivamente como: 

0, si s = t 

d^isji) = ^ 1, si ^Compatible{s,t) 

i^J27=id'{si,ti), otro caso 
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Por ejemplo, sean s — p{a, a) y t — p{f(b), f{b)) dos expresiones; entonces, 



d^is, t) = \- {d{a, f{b)) + d{a, f{b))) - J(l + 1) 



2 



1 



Debe destacarse que la funcion de salida de esta distancia devuelve un valor numerico que 
puede ser facilmente utilizado por algoritmos tradicionales de aprendizaje basados en distancias. 



La distancia entre atomos/terminos de Estruch et al. Integra las propiedades de las distancias 
de Nienhuys-Cheng y J. Ramon et al. para ello los autores definen el concepto de diferencias 
sintacticas de la expresion, el tamafio y el valor del context©. A continuacion se definen estos 
aspectos y finalmente esta distancia. 

Sean s y t dos expresiones, el conjunto de las diferencias sintacticas, denotado por 0*{s,t), 
es definido como: 



Luego, la complejidad de las diferencias sintacticas entre s y t son calculadas sobre el niimero 
de si'mbolos de subterminos (en s y t) en las ocurrencias que tiene o G 0*{s,t). Para este 
proposito, se utiliza una funcion especial de tamafio de una expresion denotada por Size'{t) 
definida de la siguiente manera: 

Dada una expresion t — to{ti, . . . ,tn) entonces Size'{t) — ^Size{t) donde, 



Por ejemplo, considerando s — f{f{a), h{b), &), entonces Size(a) = Size(b) — 1, Size{f{a)) — 



2.8 Distancia de Estruch et al. [ jlO] 



0*(s,t) 



{o e 0{s) n 0{t) : ^Compatible{s\o, t\o) y 

Compatible{s\o' ,t\o'),yo' £ Pre{o)} 
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Size{h{b)) = 1 + 1/4 = 5/4, Size{s) = 1 + (5/4 + 5/4 + l)/8 = 23/16 y finalmente, Size'{s) = 
23/64. 



El valor de contexto de una ocurrencia o en una expresion t, C{o; t), es usado para considerar 
la relacion entre t\o y i en el sentido que, un alto valor de C{o;t) corresponde a una posicion 
de profundidad de t|o en t o la existencia de superterminos de t\o con un gran niimero de 
argumentos. Este concepto se formaliza de la siguiente manera: 

Sea t una expresion. Dada una ocurrencia o G 0(t), el valor de contexto de o en t, denotado 
por C{o;t), es definido como: 



C{o;t) = 



1,0 = X 

^Lengthio) . ePre(oMrity{tl.) + 1), otro caso 



Esta demostrado en [10] que si o G 0*{s,t) entonces C(o;s) = C{o;t). De esta manera, 
en estos casos, el contexto de una ocurrenca o E 0*{s,t) es denotado por C(o). Las difrencias 
repetidas se manejan a traves de una relacion de equivalencia (^) sobre el conjunto 0*{s,t) 
definido de la siguiente manera: 

\/oi,Oj e 0*{s,t), Oi ~ Oj s|o, = s\o^ y i|o, = t\o. 

el cual produce una particion 0*{s,t) que no se sobrepone en la equivalencia de clases. Tam- 
bien para la relacion (<), en cada equivalencia de clase 0*{s,t), es definida como yoj,Ok G 
Otis,t), Oj <0k^ C(oj) < C(ofc). 

Adicionalmente, los conceptos previos son usados para definir otra funcion la cual simple- 
mente asocia pesos para las ocurrencias de manera que al mayor C(o), se asigna el menor de los 
pesos de o, es decir, el menos significativo de la diferencia sintactica referidos en o. Por lo tanto, 
dadas dos expresiones s y la funcion de peso w es: 

donde i = t^{o), 7r(o) es el I'ndice de la equivalencia de clase perteneciente a o, y /i(o) es la 
posicion que tiene o de acuerdo con <. 
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Finalmente, la distancia de Estruch et al. es definida como: 
Sean s y t dos expresiones, la distancia entre s y f es, 

dE{s,t)= "^^ASize'isD + Size'itD) 

oeo*{s,t) 



For ejemplo, sean s = p{a, a) yt = p{f{b), f{b)) dos expresiones. Entonces, 0*{s, t) = {1, 2}. 
Ademas, 



C(l) = C(2) = 2- (2 + 1) = 6 



Los tamanos de los subterminos involucrados en el calculo de la distancia son: 



Size'ia) = 1/4 and Size'{f{b)) = 5/16 



Hay solo una clase de equivalencia O* = Ol{s,t). Se supone que la ocurrencia 1 ocupa el primer 
lugar, 



Finalmente, 



;(1) = 1 and w{2) = 7/8 



, , , 1,1 5 , 7,1 5 , 
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3 Transformacion de datos semi-estruc- 
turados en una representacion basada 
en terminos usando XML. 



Para aplicar distancias entre terminos para diferentes tipos de datos se requiere un lenguaje 
comiin que permita su representacion. XML, por sus caracterfsticas propias de su estructura, 
es un lenguaje flexible que permite la representacion desde datos pianos hasta datos jerarquicos 
y sobre el cual es posible aplicar distancias entre terminos; sin embargo, es necesario controlar 
algunos aspectos su estructura; por consiguiente, con respecto a la estructura, dos situacio- 
nes extremas pueden ser identificadas (obviamente, existen casos intermedios que pueden ser 
manejados utilizando una mezcla de estas dos situaciones): 

■ Datos pianos: muchos conjuntos de datos son dados como una tabla de pares atributo- 
valor. Sin embargo, si so hacc una inspcccion dctallada es posible identificar que algunos 
atributos se rclacionan entre sf y pueden inducirsc jcrarqufas sobre ellos. 

■ Datos jerarquicos: otros conjuntos de datos consisten en datos con una estructura 
jerarquica que esta representada por un arbol o un termino funcional (por ejemplo en 
Haskell o LISP). 

A continuacion se hace una descripcion de como controlar los aspectos relacionados con la 
estructura de XML y como derivar esquemas XML a partir de datos pianos y jerarquicos. 
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3.1 Definicion del esquema 



Debido a que los documentos XML y los terminos funcionales no son lo mismo, se deben 
tomar algunas decisiones con el fin de utilizar XML para representar los terminos funcionales y 
adaptar los tipos de datos anteriores en una representacion comun. Un aspecto clave es como 
manejar la profundidad, la repeticion y el orden; los elementos en XML deben tener orden y 
considerar la posibilidad de permitir repeticiones sobre diferentes niveles de profundidad. 

Al aplicar estas distancias entre terminos sobre una jerarqufa, se debe garantizar su correcta 
correspondencia entre los diferentes elementos, ya que algunas partes pueden estar vaci'as, y 
determinar la manera en que se deben comparar. En otras palabras, la jerarqufa puede tener 
diferente mimero de elementos, en el mismo nivel, por lo que es necesario garantizar que los 
calculos de la distancia no scan afectados por la ausencia de caracterfsticas o por su orden. 
Esta dificultad requiere de la creacion de un esquema general que permita a cada instancia, con 
sus caracterfsticas propias, ajustarse apropiadamente en un orden definido y sin perder ningiin 
elemento o contenido. El esquema propuesto es un documento XML que contiene etiquetas de 
todos los elementos que pueden existir para un ejemplo dado. 



<ANATOMY> 

<DE F>AHATOMI C- FEATDEE S< / DE F> 

<OENAMEHT AT ION>SMOOTH-OIIKAME1JTAT ION< /ORHAMEHT AT ION> 
<ECTOSOME> 

<DEF>VISIBLE-E CTOSOME< /DE F> 

< SE P ARAB LE >YE S< / SE P ARAB LE > 
</ECTOSOME> 
<CORTEX> 

<DE F>CORTEX- CHA5ACTERI STIC:S</DEF> 
<CORTICAL-SPICDLES>YES</CORTICAL-SPrcnLES> 
<THICK>3000</THICK> 
</CORTEX> 
</ANATOMY> 



<ANATOMY> 

< DE F>ANATOMI C - FE ATUSE S < / DE F> 
<ECT0SOME> 

<DEF>VISIBLE-E CTOSOME < / DE F> 
< SE P ARAB LE >YE S< / SE PARABLE > 
<SPICnLES>YES</SPrcnLES> 
<SKELETON> 

<DEF>SKELETON- CHARACTERI STIC:S</DEF> 
< ARRANGEMENT >PAI,I SAIIE< /ARHANGEMEHT > 
< AS PE CT >ORDEEED< /ASPECT> 
</SKELET<]N> 
</ECTOSOME> 
<CORTEX> 

<DE F>CORTEX- CHARACTERI STICS</DEF> 
<CORTICAL-SPICDLES>YES</CORTICAL-SPICnLES> 
<THICK>3000</THICK> 
</CORTEX> 
</ANATOMY> 



(a) (b) 

Figura 3.1: Ejemplo de jerarqufas utilizando diferentes elementos 



Por ejemplo, la figura 3.1 muestra dos jerarqufas donde <spicules> y <skeleton> son 
elementos que existen en la jerarqufa (b), pero no en (a); de la misma manera, el elemento 
<DRNAMEMTATiDN> cxiste para la jerarqufa (a), pero no para (b). Por lo tanto, es necesario crear 
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un esquema que contenga una estructura integrada para ambos casos; es decir, un esquema para 



las jerarqui'as de la figura 3.1 tendn'a, no solo aquellos elementos comunes, sino tambien aquellos 



que estan en alguna de las dos jerarqui'as como <spicules> , <skeleton> y <ornamentation>. La 



figura 3.2 muestra todas las posibles etiquetas de un esquema utilizando las jerarquias (a) y (b) 



de la figura [XT 



<AHATOMY> 
<DEF/> 

<OEfIAMENTAT ION/ > 
<ECTOSOME> 

<DEF/> 

<SEPAEfiBLE/> 

<SPrCDLES/> 

<SKELETON> 
<DEr/> 

<AEtEAHGEMENT / > 
<ASPECT/> 
</SKELETON> 
</ECTOSOME> 
<CORTEX> 
<DEF/> 

<CORTICAL-SPICnLES/> 
<THrCE/> 
</CORTEX> 
</AfIATOMY> 



Figura 3.2: Ejemplo de todas las posibles etiquetas utilizando las jerarquias de la figura 3.1 



El esquema permite, no solo tener una estructura general, sino tambien garantizar el formato, 
de manera que cada caso debe seguir esta estructura. Sin embargo, es necesario tener en cuenta 
que no todos los casos se pueden adaptar facilmente a un ejemplo XML, por ejemplo, aquellos 
elementos que son hojas con contenido no pueden ser adaptados directamente cuando el esquema 
requiere un arbol. En esta situacion el elemento es agregado independientemente de la estructura 
del esquema. Sin embargo, este hecho no afecta los calculos de la distancia ya que se consideran 
como caracterfsticas diferentes. 

A pesar de que existen diferencias entre una representacion basada en terminos y una re- 
presentacion en XML es posible convertir una representacion en otra (como se presento en la 
seccion 2.5 1. En XML, cada termino se representa como un elemento compuesto por una etique- 
ta y un valor; de esta manera, es posible convertir un termino en un elemento XML afiadiendo 
una etiqueta e insertando el termino como un valor. Tambien es posible convertir un documento 
XML en un termino sin tener en cuenta la etiqueta y representado el valor como un termino. 



Por ejemplo, las figuras 3.3 y 3.7 muestran como un documento XML puede representar dos 



tipos de jerarqufa diferentes. 
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3.2 Derivacion de esquemas XML jerarquicos a partir de 
datos pianos 



Los datos pianos se refieren a problemas atributo-valor que son comunes en bases de datos, 
aprendizaje autoniatico, minen'a de datos y otras areas. En otras palabras, los datos son presen- 
tados en forma de una tabla de valores escalares. Sin embargo, en muchos casos, algun tipo de 
estructura puede ser inferida a partir de estos conjuntos de datos, ya sea porque originalmente 
fueron asf, despues de un proceso de aplanamiento, o porque algunas caracteri'sticas pueden ser 
agrupadas de acuerdo con alguna razon. El hecho derivar una jerarqui'a a partir de datos pianos 
es uno de los problemas del area del conocimiento de computacion granular tratados en [T]. 

Para este caso se consideran tres posibles fuentes de estructuras de representacion de datos 
pianos: 

1. Igualdad de valor: muchos conjuntos de datos son dados como datos pianos, pero al hacer 
una revision detallada es posible encontrar que algunos atributos estan relacionados por 
los valores que toman. Por ejemplo, si dos variables Xi y X2 pueden tomar el valor Este, 
Oeste, Norte y Sur, hay claramente una conexion entre ellas que puede ser explotada, 
especialmente a traves del uso de igualdades. Por ejemplo, es posible definir una condicion 
o regla usando Xi y X2 que solo tiene sentido si los tipos de datos son iguales; de la misma 
manera en que las repeticiones de una variable son permitidas en terminos funcionales, 
como /(a, X, X). 

2. Jerarquia inducida por nombre: en muchos casos es posible encontrar simples estruc- 
turas en la jerarquia de atributos de acuerdo con sus nombres o su semantica. Por ejemplo 
cap-shape, cap-surface y cap-color son atributos que contienen sub-caracterfsticas de "cap" . 
De esta manera, puede ser creada una jerarquia de un grupo de caracterfsticas. 

3. Jerarquia de similitud de atributos: en otras ocasiones donde los nombres y los 
valores pueden ser diferentes, es posible establecer relaciones entre atributos los cuales 
pueden ser usados para inducir a una estructura. Un enfoque es conocido como un arbol de 
aglomeracion de variables de Watanabe-Kraskov [52] EH , el cual construye un dendrograma 
(un arbol de jerarqufas) usando la metrica de similitud entre atributos. 

A continuacion se detallan estos tres aspectos utilzando algunos ejemplos. 
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3.2.1 Igualdad de valor 



La igualdad de valor utiliza la relacion existente entre los valores posibles de dos o mas 
variables; para el caso en que existan dominios similares, estas variables pueden ser marcadas 
para ser tenidas en cuenta como un critcrio adicional al momento dc un proceso de clasificacion 
o agrupamiento. La tabla 3.1 muestra el dominio de algunos atributos del conjunto dc datos 
de mushroom (de UCI machine learning repository [l^), en el cual los atributos stalk- color- 
above-ring y stalk- color-below-ring estan relacionados entre ellos; adicionalmente, es posible ver 
como cap-color, aunque no es exactamente igual, es muy similar son respecto a los otros dos 
atributos. 



Atributo 


Dominio 


cap-color 


brown, buff, cinnamon, gray, green, pink, purple, red, white, yellow 


stalk-color-above-ring 


brown, buff, cinnamon, gray, orange, pink, red, white, yellow 


stalk-color-below-ring 


brown, buff, cinnamon, gray, orange, pink, red, white, yellow 



Tabla 3.1: Ejemplo similaridad entre dominos de variables 



La forma de relacionar estos atributos en XML depende de como las repeticiones y relaciones 
entre estas variables son tenidas cuenta por el algoritmo utilizado para calcular la distancia. Este 
algoritmo podrfa tener en cuenta solo los valores de las variables o tener en cuenta el par atributo- 
valor. En el primer caso no es requerido ningiin tipo de transformacion; para el segundo caso 
es necesario transformar el nombre de las etiquetas de las variables relacionadas, en un nombre 
comun. 



3.2.2 Jerarqma inducida por nombre 



La figura |3.3| muestra un ejemplo de jerarqufa la cual es inducida por los nombres de los 
atributos originales utilizando el conjunto de datos piano de mushroom de UCI [IB] , el cual 



originalmente no tiene una estructura (como se muestra en 3.3 a)). Despues de agrupar por 



prefijos de nombres comunes se obtiene una jerarqufa la cual es finalmente representada como 
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1. cap- shape 

2. cap-surface 

3. cap-color 

4. bruises 

5 . odor 

5. gill-attachment 

7. gill-spacing 

9. gill-size 

9. gill-color 

10. stalk-shape 

11. stalk-root 

12. stalk- surf ace- above - ring 

13. stalk- sur face-below- ring 

14. stalk-color-above-ring 

15. stalk-color-below-ring 

16. veil-type 

17. veil-color 

18. ring-nuinber 

19. ring-type 

20. spore-print-color 

21. population 

22. habitat 



(a) Atributos originales 



<Mu3hrooiii> 
<cap> 

< 3h ap e >COHVEX< / 3 ti ap e > 
<3urf ace>SMO0Tll</3virf ace> 
<color>WllITE</color> 

</cap> 

<brui3e3>BRniSES</brui3e3> 
< odo r >ALMOND< / odo r > 
<gLLl> 

<attachnient>FKEE</attaci™ent> 

<3paclng>CKOWDED</3paclng> 

<3lze>NARROW</3lze> 

<color>WllITE</color> 
</giill> 
<3Gallr> 

<3hap e >TAPERING< / sliap e > 

<root>BDLBOD3</root> 

<3urf ace> 

< ab ove_r in g>SMOOTH< / ab ove_r ing > 
<b e L ow_r ing>SMOOTH< /b e Low_r ing > 

</3ijrf ace> 

<color> 

<above_ring >ffllITE< / above_ring> 
<below_ring >WmTE< /b eLow_ring> 

</color> 
</3talk> 
<veil> 

<type>PMlTIAL</type> 

<color>WIlITE</color> 
</veil> 
<rir!ig> 

<niiiiib e r >OHE < /numb e r > 

< t yp e >PEErDAMT< / 1 yp e > 
</ring> 

<3pore> 

<print:> 

<color>BROWH</color> 

</print> 
</3pore> 

<population >SE VERAL< /populatiQn> 
<habitat>W0ODS</habitat> 
</Mu3hrooni> 

(b) Jerarqui'a inducida usando nombres comu- 



Figura 3.3: Jeraqufa inducida por nombres para el conjunto de datos de mushroom 
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un documento XML (mostrado en la figura [33[ b)). Este documento XML puede ser procesado 
como un termino funcional (como es presentado en |2.5[ ); en concreto: 

Mushroom ( 

cap(CONVEX, SMOOTH, WHITE), 
BRUISES, ALMOND, 

gill (FREE, CROWDED, NARROW, WHITE), 

stalk (TAPERING, BULBOUS, surf ace (SMOOTH, SMOOTH), color(WHITE, WHITE)), 
veil (PARTIAL, WHITE), 
ring(ONE, PENDANT), 
spore (print (BROWN) ) , 
SEVERAL, WOODS) 



3.2.3 Jerarqma de similitud de atributos 



Este enfoque se basa en la idea de encontrar la similitud entre los atributos. Cuando los 
atributos son numericos, normalmente se realiza a traves de medidas de correlacion. En el 
caso de atributos noniinales, se pueden utilizar otras medidas de asociacion como una prueba 
Chi-cuadrado; de esta manera se construye una matriz de similitud de atributos y, como se 
menciono anteriormente, un dendrograma. 



La tabla 3.2 es un ejemplo de asociacion entre atributos utilizando una muestra del con- 
junto de datos mushroom con la prueba Chi-cuadrado de Weka |19j como niedida de similitud. 
Posteriormente, la tabla [33| muestra la matriz de similitud resultante constrida a partir de los 
resultados de la tabla [X2l 



Con los datos de la matriz de similitud (mostrada en la tabla 3.3) se construye un den- 
drograma utilizando los 22 atrubutos del conjunto de datos anterior. En este dendrograma, en 
lugar de usar toda la jerarqufa, solo se utilizan los segmentos mas grandes, debido a que algunas 
variables quedarfan muy profundas y con muy baja ponderacion. La figura [T4] muestra el den- 
drograma resultante (construido por medio la utilidad 'DendroUPGMA' 17 ) e identificando 
cuatro grupos como se muestra en la figura |3.5| 
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Atributo 1 


Atributo 2 


Prueba 
chi-cuadrado 


cap-shape 


cap-surface 


83.49 


cap-shape 


cap-color 


215.39 


cap-shape 


bruises 


87.10 


cap-shape 


odor 


327.91 


cap-shape 


gill-attachment 


4.30 


cap-shape 












giU-attachment 


cap-shape 


4.30 


gill-attachment 


cap-surface 


3.71 


gill-attachment 


cap-color 


201.46 


gill-attachment 


bruises 


3.33 


gill-attachment 


odor 


358.79 


gill-attachment 













Tabla 3.2: Ejemplo de asociacion entre variables utilizando la prueba Chi-cuadrado 





cap-shape 


cap-surface 


cap-color 


bruises 


odor 


gill- 
attachment 




cap-shape 





83.49 


215.39 


87.10 


327.91 


4.30 




cap-surface 


83.49 





167.81 


4.04 


135.83 


3.71 




cap-color 


215.39 


167.81 





56.75 


520.88 


201.46 




bruises 


87.10 


4.04 


56.75 





242.75 


3.33 




gill-attachment 


327.91 


135.83 


520.88 


242.75 





358.79 




odor 


4.30 


3.71 


201.46 


3.33 


358.79 

























Tabla 3.3: Matriz de similitud entre atributos 
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3. 

3 



8 s 



Tl 

to n 

« I 



□ 



□ 



jura 3.4: Jerarquia de similitud de atributos del conjunto de datos de mushroom 




Figura 3.5: Jerarquia simplificada basada en la figura 3.4 
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A partir de esto, es colocada cada variable en un grupo que puede ser representado como un 
termino funcional: 

Mushroom (WHITE, WHITE, PENDAT, AMOND, WHITE, 

Group2 (PARTIAL, WHITE, SMOOTH, BROWN, SEVERAL, 
Groups (SMOOTH, WOODS, ONE, WHITE), 

Group4(TAPERIMG, FREE, CROWDED, NARROW, BRUISES, BULBOUS, CONVES, SMOOTH))) 



3.3 Derivacion de esquemas XML jerarquicos a partir de 
datos jerarquicos 



En este punto se trata de la transformacion necesaria cuando los datos ya tienen original- 
mente una rica estructura jerarquica. Este tipo de derivaciones son mas directas; consisten en 
transformaciones simples que deben garantizar una estructura bien formada para el documcnto 
XML; es necesario establecer si el orden, repeticiones y etiquetas son pertinentes para determi- 
nar las caracten'sticas y la ubicacion correcta en la estructura XML. Un aspecto especi'fico, como 
se menciono anteriormente, es la forma de tratar las partes vaci'as de la jerarquia y la forma de 
compararlas con los terminos que no esten vaci'os. Este enfoque se basa en un esquema comrin 
para todos los ejemplos y la suposicion de que la distancia entre una parte vacia y una no vacfa 
es 1 (no esta dado por el tamafio de una parte vacfa). 



La figura 3.6 muestra la estructura del ejemplo 220 del conjunto de datos 'sponge' del UCI 



repository |16j . La figura 3.7 muestra este mismo objeto representado como un termino en LISP 
y su represntacifon en un documento XML. Este es un conjunto de datos complejo que cuenta 
con una rica estructura, donde es posible resaltar que los metodos proposicionales clasicos no 
son aplicables. 
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ecological- 
features 



descriptkin fa^jjg^^^ 




Figura 3.6: Jerarqui'a compleja (ejemplo 220) del conjunto de datos de sponge 
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Cdefine-episode (sponge :ID SPONGE-220) 
( E>n"E RN AL - F E ATU RES 

Cdefine (external -features;) 
(body-size medium) 
(consistency stony) 
(hand tough) 
(touch velvety) 
(surface bristly) 

(GROWING 
(DEFINE (GROWING) 

(GROW ERECT) 
(LINE-FORM 
CDEFINE (LINE-FORM) 

(FORM BRANCHING) 
(PEDUNCLE YES))))) 

(BORING NO) 

(COLOUR (DEFINE (COLOUR) (EXTERNAL YELLOW))) 
(CRIBLE N0)| 
(HOLLOW NO) 
(BRUSH NO) 
(BRIOZOA NO) 
(MACRO-DEBRIS NONE) 
(05C (DEFINE (ABSENTOSC)) ) 
(GEMMULES NO))) 
(ECOLOGICAL-FEATURES 
(DEFINE (ECOLOGICAL-FEATURES) 
(SUBSTRATE ROCK) 
(OXID YES) 

(location mediterranean) 
(association yes))) 
(spiculate-skeleton 
Cdefine (spiculate-skeleton) 

(chemical silica) 
(architecture plumoret) 
(megascleres 
(define (megascleres) 

(smooth-form (define (set) style oxea)) 
cacanthose noacanthose) 
(characteristics 

(define (characters) (shaft fusiform))) 
(ornamentation smooth -ornamentation) 
(max-length 850) 
(two-or-more-length no))) 
(sclerospongids no) 
(uniform-length no))) 
; (fibrous-skeleton (define (no-fibrous-skeleton))) 
(tracts-skeleton (define (tracts-skeleton))) 

(ANATOMY 
(DEFINE (ANATOMIC-FEATURES) 

(ORNAMENTATION SMOOTHORNAMENTATTON) 

(ECTOSOME NO-VISIBLE) 

(CORTEX (DEFINE (ABSENT-CORTEX)))))) 



<SPONGES> 

<DEFIHE-EPI30DE> 

<EXTE RNJlL - FEATURE S > 

<DEF>EXTERNflL- FEATURE S</DEF> 
<BODY- 3 I ZE >ME DIUM< /BODY- 5IZE> 
<CONS I STENCY>STONY< / CONS ISTENCY> 
<HAHD>TOUGH< / HflfTD> 
<TOUCR>VELVETY</TOUCfi> 
<SURFACE >BRI STLY< / SURFACE> 
<GEOWING> 

<DE F>GROWING< / DE F> 
<GROW>E RE CT< / GROW> 
<LINE-FORM> 

<DE F>LIKE - FORH< / DE F> 

< FORM>ERAKCHING< / FORM> 

< PE DUUCLE >YE S< / PE DUNCLE> 
</LIKE-FORH> 

</GEOWING>| 
<BORING>NO< /EORING> 
<COLOUR> 

<DE F>COIyOUR< / DE F> 

<EXTERtJAL>YELLOW</EXTERNflI.> 
</COLOUR> 

<CKIBLE >NO< / CRIBLE > 

<HOLLOW>NO</HOLLOW> 

<BRU3H>NO< /BRU3H> 

<BRIOZOA>NO< /BRIOZOA> 

<MACRO-DEBRIS>NONE</HaCRO-DEBRIS> 

<03C> 

<DE F>AESENT -OS C< / DE F> 
</03C> 

< GEMMULE 3 >NO< / GEMMULE S > 

< /EXTERHAL- FEATURE S > 

<ECOLOGICaL-FEATURE5>. . ■</ECDLOGICM.-FEaTURE5>| 
<SPICDLaTE-3KELETON>. . ■</SPICULaTE-SKELETOH>| 
<TRflCTS-SKEI^TQN>. ■ ■ </TRACTS-SK£LETQN>| 
<aM&TDMY>. ■ ■</aWATOMY^ 
<ORDER>AXIHELLIDA</ORDER> 
</DEFIHE-EPISODE> 
</3PCNGE3> 



(a) Jerarquia en LISP 



(b) Jerarquia representada como un documento 
XML 



Figura 3.7: Termino en LISP y su representacion en XML del conjunto de datos de sponge 
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4 Experimentos 



En este capi'tulo se incluyen experimentos sobre un proceso de clasificacion usando algunas 
distancias entre terminos introducidas en la capi'tulo [2j con las transformaciones presentadas en 
la capi'tulo previo (capi'tulo |3]) . 

Para el proceso de clasificacion se utiliza el algoritmo fc-NN con la variante de ponderacion, 
usando la funcion de atraccion. fc-NN es un algoritmo simple y adecuado para analizar el efecto de 
las distancias y las transformaciones. Como se menciono en la secd6n [273l este algoritmo clasifica 
una instancia en la clase mas comiin de los k ejemplos mas cercanos usando la distancia. El valor 
de k para los siguientes experimentos es calculado como ^/n (donde n es el mimero de ejemplos), 
que es una manera comiinmente utilizada para definir el valor de k en este algoritmo. La funcion 
de atraccion, definida como y (donde d es la distancia e i es el pardmetro de atraccion), da 
mayor ponderacion a los ejemplos mas cercanos de k (en fc-NN no ponderado, i es igual a 0); en 
otras palabras, mientras mayor sea i, menor importancia tiene fc. En los experimentos se usan 
varios valores para i que van'an de a 3. 

Se consideraron tres distancias: la distancia de Nienhuys-Cheng, la distancia de Estruch et 
al. y la distancia eucli'dea; las cuales son denotadas por d^r, ds y djj, respectivamente. 

Para la evaluacion experimental, se utilizaron tres conjuntos de datos del UCI repository [16] : 
dos de ellos, mushroom y soybean, son conjuntos de datos pianos que son usados de diferentes 
maneras: inicialmente con su estructura plana y, porteriormente, jerarquizados utilizando dos 
metodos diferentes. El tercer conjunto de datos, Demospongiae {sponge), es un documento LISP 
el cual fue transformado en un documento XML, preservando la jerarqui'a y los valores entre los 
atributos. 
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Las tablas de resultados, para los conjuntos de datos de mushroom y soybean, incluyen los 
valores medios de los experimentos utilizando validacion cruzada con 10 pliegues. Para la prueba 
de significancia entre los resultados de los metodos, se utiliza t-Student con una confianza de 
95%; si la diferencia de un metodo con respecto a otro es significativo, se incluyen su acronimo 
{dN ,dE,du) en la celda. En el conjunto de datos de sponge se utiliza 60% de ejemplos de 
entrenamiento y 40 % para ejemplos de prueba. 



4.1 Conjunto de datos Mushroom 



Este conjunto de datos incluye descripciones de muestras hipoteticas correspondientes a 23 
especies de setas; cada especie es identificada como comestible o venenosa. Este conjunto de 
datos cuenta con 8416 ejemplos, de los cuales se extrajo una muestra aleatoria de 1000 de ellos 
para el proceso de clasificacion. 



Primero se comparan las ties distancias usando un esquema piano (sin usar ningiin tipo de 
jerarqui'a) y con diferentes valores para el parametro i. Los resultados, presentados en la tabla 
|4.1|y la figura 4.1 muestran que las diferencias entre las tres distancias no son significativas. 





i = 
(%) 


i = 1 
(%) 


i = 2 
(%) 


i = 3 
(%) 


Distancia de Nienhuys-Cheng 
dN 


93.0 


94.9 


95.6 


95.8 


Distancia de Estruch et al. 
dE 


93.0 


94.9 


95.6 


95.8 


Distancia euch'dea 
du 


93.0 


94.4 


94.9 


95.5 



Tabla 4.1; Porcentajes de aciertos para el conjunto de datos de mushroom sin jerarqufas. 
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100%. 



i=0 



i=l 



\=1 



i=3 



-Nienhiuys- 

Cheng 
distance 

-Estrjcliet el. 
distarme 



-Euclideari 
distance 



Figura 4.1: Porcentajes de aciertos para el conjunto de datos de mushroom sin jerarqui'as. 





i = 
(%) 


i = 1 
(%) 


i = 2 
(%) 


i = 3 
(%) 


Distancia de Nienhuys-Cheng 
cLm 


99.8 


99.8 


99.9 


99.9 


Distancia de Estruch et al. 
dE 


99.8 


99.8 


99.8 


99.8 


Distancia euch'dea 
du 


93.0 


94.4 


94.9 


95.5 



Tabla 4.2: Porcentajes de aciertos para el conjunto de datos de mushroom con una jerarquia 
derivada del nombre de los atributos. 
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La tabla 4.2 y la figura 4.2 muestra los resultados usando una jerarquia inducida por los 
nombres de los atributos. Con esta estructura, es posible encontrar diferencias entre las distan- 
cias; el desempeno de las distancias de Estruch et al. y Nienhuys- Cheng es optimo, mientras 
que los resultados de distancia euclidea no se ven afectados por la estructura y, al igual que la 
ejecucion anterior, solo se incrementa el porcentaje de aciertos cuando el valor de i tambien es 
incrementado. 



100% 



9554 



90% 



85% 



80% 



75% 



-Nienhuyi- 

- Estruch et al. 
distarMie 



-Euclidean 
dlitartce 



i=l 



i=2 



1=3 



Figura 4.2: Porcentajes de aciertos para el conjunto de datos de mushroom con una jerarquia 
derivada del nombre de los atributos. 



Finalmente, usando el otro metodo de agrupacion, que considera la similitud entre atrubutos, 
basado en la metrica de Chi-cuadrado (ChiSquaredAttributeEval + Ranker en Weka [19]) y los 
grupos mostrados en la figura |3.4[ se obtienen los resultados presentados en la tabla |4.3| y la 
figura [473l En estos resultados, las distancias entre terminos aprovechan esta estructura y obtiene 
nuevamente mejores resultados que la distancia eucli'dea. 
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i = 
(%) 


i = 1 
(%) 


i = 2 
(%) 


i = 3 
(%) 


Distancia de Nienhuys-Cheng 
dN 


99.5 


99.8 


100 


100 


Distancia de Estruch et al. 


99.5 


100 


100 


100 


Distancia euch'dea 
du 


93.0 


94.4 


94.9 


95.5 



Tabla 4.3: Porcentajes de aciertos para el conjunto de datos de mushroom de acuerdo con la 
similitud cntrc atributos. 



lODK 



9S% 



90% 



80% 



75% 



- Nienhuys- 
distance 

- Btruchet al. 
distarKe 



- Euclidean 
distance 



Figura 4.3: Porcentajes de aciertos para el conjunto de datos de mushroom de acuerdo con la 
similitud cntre atributos. 



49 



4.2 Conjunto de datos Soybean 



El conjunto de datos soybean, al igual que mushroom, es un conjunto de datos piano, com- 
puesto de 307 instancias y cada instancia tiene 35 atributos que determinan 19 clases diferentes 
de enfermedades de la soja. Las ejecuciones realizadas con este conjunto de datos son iguales a 
las realizadas para mushroom: 1) sin utilizar ningiin tipo de jerarqui'a, 2) creando una jerarqufa 
a partir de los nombres y valores de los atributos y 3) creando una jerarqufa de acuerdo con la 
similitud de los atributos. 

La tabla [44| y la figura [44| muestra los resultados de las ejecuciones con las tres distancias 
usando la version plana del conjunto de datos. En este caso, cuando i = las tres distancias son 
iguales; sin embargo, al incrementar i las distancias entre terminos superan un poco la distancia 
eucli'dea, aunque sus diferencias no son estadi'sticamente significativas. 





i = 
(%) 


i = 1 
(%) 


i = 2 
(%) 


i ^ 3 
(%) 


Distancia de Nienhuys- Cheng 
dN 


75.3 


9L3 


93.9 


95.8 


Distancia de Estrucli et al. 


75.3 


9L3 


93.9 


95.8 


Distancia eucli'dea 
du 


75.3 


87.1 


91.3 


92.6 



Tabla 4.4: Porcentajes de aciertos para el conjunto de datos de soybean sin jerarquias. 



La tabla 4.5 y la figura 4.5 muestran el desempefio utilizando una jerarqufa construida a 
partir de los nombres y valores de los atributos; el comportamiento de las tres distancias es 
similar y las diferencias no son significativas. 



50 






i = 
(%) 


i = 1 
(%) 


i = 2 
(%) 


i = 3 
(%) 


Distancia de Nienhuys-Cheng 


78.6 


89.6 


92.6 


93.2 


Distancia de Estruch et al. 

d-E 


76.0 


88.0 


91.6 


93.5 


Distancia euch'dea 
du 


75.3 


87.1 


91.3 


92.6 



Tabla 4.5: Porcentajes de aciertos para el conjunto de datos de soybean con una jerarquia 
derivada del nombre y valor de los atributos. 
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95% 



asss 



75% 




-Nienhuys- 
Chengdiitance 



-EstriKliet al. 
distance 



-EiKlidean 
distance 



Figura 4.5: Porcentajes de aciertos para el conjunto de datos de soybean con una jerarquia 
derivada del nombre y valor de los atributos. 





i = 
(%) 


i = 1 
(%) 


i = 2 
(%) 


i = 3 
(%) 


Distancia dc Nienhuys-Cheng 


86.1 

du 


99.0 

du 


99.4 

du 


99.4 

du 


Distancia de Estruch et al. 


86.1 

du 


99.0 

du 


99.4 

du 


99.4 

du 


Distancia euch'dea 

du 


75.3 

dNds 


87.1 

dpfds 


91.3 

di^dE 


92.6 

dNds 



Tabla 4.6: Porcentajes de aciertos para el conjunto de datos de soybean de acuerdo con la 
similitud entre atributos. 
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Finalmente, para este conjunto de datos, utilizando la metrica Chi-cuadrado para identificar 



la similitud entre atributos, se obtienen los resultados de la tabla 4.6 y la figura 4.6 Para 
esta situacion, las diferencias son estadi'sticamente significativas; las distancias entre terminos 
obtienen mejores resultados que la distancia euclidea, que siempre es igual y no es afectada por 
la estructura del conjunto de datos. 



95% 



B5% 



75% 




-Nienhiiys- 
CliengdistarKe 



-Eitrjchiet al. 
distance 



-Euclidean 
distance 



Figura 4.6: Porcentajes de aciertos para el conjunto de datos de soybean de acuerdo con la 
similitud entre atributos. 



Utilizando la similitud entre atributos y las distancias entre terminos se puede mejorar 
significativamente el desempefio de un proceso de clasificacion aplicado sobre conjuntos de datos 
pianos. 



4.3 Conjunto de datos Demospongiae 



El conjunto de datos Demospongiae es una estructura originalmente jerarquica con 503 ins- 
tantacias de esponjas marinas; cada instancia es representada como un arbol usando terminos 
en el lenguaje LISP. Cada arbol tiene entre 5 y 8 niveles de profundidad y el niimero de hojas 



varia entre 17 y 51 (ver la figura 3.6) 



De este conjunto de datos, se extrae un documento XML bien formado que preserva la 
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estructura original. Para hacer esta transformacion, cada li'nea en LISP es convertida en uno o 
varies elementos XML bien formados, por medio de la asignacion de nombres y valores de cada 
elemento de cada una de las caracterfsticas descritas en LISP, acuerdo con su jerarqui'a y orden. 
Algunas transformaciones fueron definidas de la siguiente manera: 



■ Cada ejemplo en LISP, definido por la etiqueta ' def ine-episode ' y un identificador 
'sponge :ID SPDNGE-0' fue transformado por un elemento XML: <DEFINE-EPISDDE>, 
el cual adiciona un elemento hijo: <SPONGE_ID>SPONGE-0</SPDNGE_ID>. 

■ Cada caracten'stica definida como ' EXTERNAL-FEATURES (DEFINE (EXTERNAL-FEATURES)' 

es convertida en un elemento principal contenedor de varios elementos XML: <EXTERNAL- 
FEATURES>. 

■ Cada caracteristica simple como ' (BODY-SIZE SMALL) ' es convertida en un elemento 
<BODY-SIZE>SMALL</BODY-SIZE>. 

■ Adicionalmente, las coleciones como ' (SET) GREY WHITISH' , es convertida en XML de 
la siguiente manera: <SET1>GREY</SET1> <SET2>WHITISH</SET2>. 



La tabla |4.7] y la figura 4.7 muestran los resultados de la clasificacion utilizando el documento 
XML generado a partir de las transformaciones anteriores. Con este conjunto de datos solo se 
aplican las distancias entre terminos porque no es posible aplicar directamente la distancia 
eucli'dea; la distancia de Estruch et al. muestra mejores resultados que la distancia de Nienhuys- 
Cheng (cuando i es mayor que 0). Este conjunto de datos es litil para tener en cuenta las 
ventajas de las propiedades intrfnsecas de las distancias entre terminos; es un buen ejemplo 
para ilustrar las diferencias entre este tipo de distancias debido a que los datos son puramente 
semi-estructurados y se percibe el efecto de las repeticiones. 
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i = 
(%) 


i = 1 
(%) 


i = 2 
(%) 


i = 3 
(%) 


Distancia de Nienhuys-Cheng 
dN 


60.9 


71.3 


74.3 


73.8 


Distancia de Estruch et al. 


60.9 


73.3 


78.7 


77.7 



Tabla 4.7: Porcentajes de aciertos para el conjunto de datos de sponge usando su jerarquia 
original. 



100% 



90% 



70% 



60% 



50% 



A0% 




i=0 



i=l 



i=2 



i=3 



•Nienhuys- 
Cheng 
distance 



-Ertruch et al. 
distance 



Figura 4.7: Porcentajes de aciertos para el conjunto de datos de sponge usando su jerarquia 
original. 
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5 Conclusiones y trabajos futures 



Las distancias entre terminos, aunque inicialmcntc dcfinidas en el area de programacion 
inductiva, pueden ser usadas en una gama mas amplia de aplicaciones. En este trabajo, por 
ejemplo, se utilizan diferentes tipos de transformaciones que buscan adaptar datos pianos en 
diferentes grades de estructuras, aplicando las distancias entre terminos. De igual manera, se 
utiliza la distancia entre terminos sobre un conjunto de datos originalmente jerarquicos. Todas 
ostas transformaciones son aplicadas sobrc estructuras XML; dc csta manera, cualquier conjunto 
de datos, piano o con algiin nivel de jerarquia, puede ser transformado y, por medio de un proceso 
de clasificacion (basado en distancias), utilizar las distancias entre terminos. 



5.1 Discusion 

Con los resultados obtenidos en los experimentos realizados utilizando las diferentes trans- 
formaciones y las distancias entre terminos (y comparandolas con la distancia euclidea, para el 
caso de conjuntos de datos pianos), se puede identificar los siguientes tres aspectos: 

■ Los metodos para la construccion de jerarqui'as a partir de los nombres y los valores 
dc atributos no siempre parecen dar bucnos resultados. Sin embargo, estas asociaciones 
intuitivas entre atributos pueden modificar los resultados del proceso de clasificacion y, en 
algunas ocasiones, de una manera sencilla y utilizando distancias entre terminos, mejora 
los resultados obtenidos en la aplicacion directa de este proceso sobre datos pianos. 

■ El proceso basado en la similitud de atributos se caracteriza por agrupar las variables mas 
parecidas entre si y colocar mas cerca de la raiz del arbol aquellos grupos que estan alta- 
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mente relacionados; su principal beneficio se debe a la ponderacion impli'cita que asuinen 
las distancias entre terminos donde, comiinniente, ofrecen mayor relevancia a los atributos 
que estan cerca de la raiz del arbol. Sin embargo, la creacion de estructuras altamente 
jerarquizadas puede generar que atributos con relevancia media y baja no sean considera- 
dos adecuadamcntc, dcbido a que su ponderacion sc hace muy pequena; esta razon lleva 
a la construccion de una estructura con menos niveles de jerarquia. El uso de este pro- 
ceso, basado en la similitud entre atributos para construir un dendrograma y a partir de 
este construir una jerarquia, mejora los resultados obtenidos sobre la aplicacion de datos 
pianos. 

■ Cuando los datos son originalmente jerarquicos no es posible aplicar directamente las dis- 
tancias definidas para datos proposicionales y es relevante considerar las ventajas ofrecidas 
por las propiedades de distancias entre terminos con el fin de mejorar los resultados de la 
clasificacion. 

Este trabajo ha mostrado una aplicacion prometedora de las distancias entre terminos para 
diferentes tipos de conjuntos de datos, lo que sugiere que su uso puede ser mas amplio de lo que 
es ahora. Aunque existen distancias entre arboles que permiten la comparacion de estructuras 
jerarquicas, como por ejemplo la distancia de edicion, estas se basan principalmente en costos 
de opcracioncs do insercion y eliminacion nodos y aristas, que dependen del niimero de trans- 
formaciones para convertir un arbol en otro; lo cual es un concepto que, en muchas ocasiones, 
pierde el sentido de comparacion jerarquica, puesto que no considera el nivel de profundidad de 
las variables dentro de este tipo de estructuras. 



5.2 Trabajos futures 

Existen algunos de aspectos que seria importante explorar y profundizar en trabajos futuros 
y que, seguramente, permitirian mejorar los proccsos dc aprendizaje por medio de la aplicacion 
de distancias entre terminos. A continuacion se describen algunos de estos aspectos: 

■ Manejo de conjuntos: cstc trabajo sc centra principalmente en la aplicacion distancias 
sobre estructuras jerarquicas que son rcprescntadas por medio de XML. Sin embargo, el 
manejo de conjuntos, como tipos de datos anidados dentro de este tipo de estructuras 
jerarquicas, es un aspecto relevante para los procesos de clasificacion. La utilizacion de 
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metricas sobre este tipo de dato, como por ejemplo distancias que tienen en cuenta la 
diferencia entre los elementos del conjunto, mejorarfa los procesos de clasificacion. 

■ Manejo de valores desconocidos de las variables y ausencia de variables: el des- 
conocimicnto del valor de una variable y la ausencia de esta son aspectos que deben ser 
tratados de diferente manera; por ejemplo, intuitivamente la ausencia de una misma ca- 
racteristica, entre dos objetos diferentes, representa mayor grado de similitud que el caso 
en que uno de estos objetos contiene la caracteristica y el otro no; por otra parte, el desco- 
nocimiento del valor de una misma variable en dos instancias tiene una alta probabilidad 
de que efectivamente sean diferentes (esta probabilidad se incrementa, mientras mayor 
sea el dominio de los posibles valores de la variable en comparacion) ; igualmente, pueden 
generarse multiples combinaciones entre estos dos aspectos que seguramente, utilizando 
ponderaciones adecuadas, ayudarian a mejorar los procesos de aprendizaje por medio de 
la utilizacion de las distancias entre terminos. 

■ Distancias entre terminos para agrupamiento: adicionalmente, un trabajo futuro es 
la aplicacion de distancias entre terminos para tareas aprendizaje no supervisado; parti- 
cularmente, tareas de agrupamiento basado en distancias. 



5.3 Publicaciones 



Fundamentado en el analisis y los resultados obtenidos de este proyecto de investigacion, se 
desarroUo un artfculo titulado "Applying distances between terms to both flat and hierarchical 
data" [5] en conjunto con los profesores Jose Hernandez Orallo, Cesar Ferri y Maria Jose Ramirez 
Quintana, miembros del Grupo DMIP (Data Mining and Inductive Programming). Este articulo 
fue aceptado por el comite del 4t^>- International Workshop on Approaches and Applications of 
Inductive Programming, presentado el 19 de julio de 2011 en Odense-Dinamarca (publicado en 
http:/ /www. cogsys.wiai.uni-bamberg.de/aaipll/AAIP2011.pdf). 
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Apendices 
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A Detalle de los resultados 



Este apendice detalla los resultados presentados en el capi'tulo [4] para los conjuntos de datos 
pianos (mushroomy soybean) y originalmente jerarquicos (demospongiae) , utilizando el algoritmo 
de clasificacion fc-NN con diferentes valores para el pardmetro de atraccion i, aplicando las 
distancias entre terminos y la distancia euch'dea. Para los conjuntos de datos pianos se utiliza 
validacion cruzada con 10 pliegues; para el conjunto de datos originalmente jerarquico se utiliza 
60 % de ejemplos de entrenamiento y 40 % para ejemplos de prueba. 



A.l Conjunto de datos Mushroom 



Los resultados para este conjunto de datos son calculados utilizando la distancia de Nienhuys- 
Cheng, la distancia de Estrucli et al. y la distancia euclfdea sobre los tres tipos de estructuras: 1) 
plana (sin jerarqui'as), 2) jerarqufa inducida por nombres y valores de los atributos y 3) jerarqufa 
de acuerdo con la similitud de los atributos. 



63 



Estructura plana (sin jerarquias): 



Distancia de Nienhuys-Cheng 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





100 


100 


100.00 


100 


100.00 


100 


100.00 


99 


99.00 


1 


100 


58 


58.00 


60 


60.00 


60 


60.00 


62 


62.00 


2 


100 


94 


94.00 


96 


96.00 


99 


99.00 


100 


100.00 


3 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


93 


93.00 


100 


100.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


100 


87 


87.00 


95 


95.00 


100 


100.00 


100 


100.00 


8 


100 


98 


98.00 


98 


98.00 


98 


98.00 


98 


98.00 


9 


100 


100 


100.00 


100 


100.00 


99 


99.00 


99 


99.00 


Total/prom. 


1000 


930 


93.00 


949 


94.90 


956 


95.60 


958 


95.80 



Tabla A.l: Aciertos para el conjunto de datos mushroom sin jerarquias utilizando la distancia 
de Nienhuys-Cheng 



Distancia de Estruch et al. 


No. 

plingiic 


Elementos 

del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


%■ 


Aciertos 


7i 


Aciertos 


7, 


Aciertos 


7 





100 


100 


100.00 


100 


100.00 


100 


100.00 


99 


99.00 


1 


100 


58 


58.00 


60 


60.00 


60 


60.00 


62 


62.00 


2 


100 


94 


94.00 


96 


96.00 


99 


99.00 


100 


100.00 




iOO 


11)0 


iOO.OO 


iOO 


iOO.OO 


100 


100. 01) 


too 


100.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


93 


93.00 


100 


100.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


100 


87 


87.00 


95 


95.00 


100 


100.00 


100 


100.00 


8 


100 


98 


98.00 


98 


98.00 


98 


98.00 


98 


98.00 


9 


100 


100 


100.00 


100 


100.00 


99 


99.00 


99 


99.00 


Total/prom. 


1000 


930 


93.00 


949 


94.90 


956 


95.60 


958 


95.80 



Tabla A. 2: Aciertos para el conjunto de datos mushroom sin jerarquias utilizando la distancia 
de Estruch et al. 
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Distancia eucli'dea 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


1 = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


1 


100 


58 


58.00 


60 


60.00 


60 


60.00 


60 


60.00 


2 


100 


94 


94.00 


94 


94.00 


96 


96.00 


98 


98.00 


■> 
'} 


iOO 


11)0 


100. 00 


100 


100.00 


100 


100.00 


100 


100.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


93 


93.00 


98 


98.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


iOO 


87 


87.00 


91 


91.00 


95 


95.00 


99 


99.00 


8 


100 


98 


98.00 


98 


98.00 


98 


98.00 


98 


98.00 


9 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


Total/prom. 


1000 


930 


93.00 


944 


94.40 


949 


94.90 


955 


95.50 



Tabla A. 3: Aciertos para el conjunto de datos mushroom sin jerarqmas utilizando la distancia 
eucli'dea 



Jerarqufa inducida por nombres y valores de los atributos: 



Distancia de Nienhuys-Cheng 


No. 

plingiic 


Elementos 

del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Acierto.^ 


%■ 


Aciertos 


7i 


Aeiertos 


7, 


Aeiertos 


7 





100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


1 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


2 


100 


99 


99.00 


99 


99.00 


100 


100.00 


100 


100.00 




100 


1)9 


99.00 


99 


99.00 


99 


91). 00 


99 


1)9.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


8 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


9 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


Total/prom. 


1000 


998 


99.80 


998 


99.80 


999 


99.90 


999 


99.90 



Tabla A. 4: Aciertos para cl conjunto do datos m,ushroom, con jcrarquia inducida por nombres y 
valores de los atributos utilizando la distancia de Nienhuys-Cheng 
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Distancia de Estruch et al. 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


1 = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


1 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


2 


100 


99 


99.00 


99 


99.00 


100 


100.00 


100 


100.00 


■> 
'} 


iOO 


1)9 


99.00 


99 


99.00 


9« 


98.00 


98 


1)8.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


iOO 


100 


100. 00 


100 


100.00 


100 


100.00 


100 


100.00 


8 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


9 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


Total/prom. 


1000 


998 


99.80 


998 


99.80 


998 


99.80 


998 


99.80 



Tabla A. 5: Aciertos para cl coiijiinto dc datos mushroom, con jcrarqma inducida per nombres y 
valores de Ids atributos utilizando la distancia de Estruch et al. 



Distancia euclidea 


No. 

pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


1 


100 


58 


58.00 


60 


60.00 


60 


60.00 


60 


60.00 


2 


100 


94 


94.00 


94 


94.00 


96 


96.00 


98 


98.00 


3 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


93 


93.00 


98 


98.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


100 


87 


87.00 


94 


94.00 


95 


95.00 


99 


99.00 


8 


100 


98 


98.00 


98 


98.00 


98 


98.00 


98 


98.00 


9 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


Total/'prmii. 


1000 


9:!() 


9:!. 00 


911 


9 1. 10 


9 19 


91.90 


955 


95.50 



Tabla A. 6: Aciertos para el conjunto de datos mushroom con jerarqma inducida por nombres y 
valores de los atributos utilizando la distancia eucHdea 
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Jerarquia de similitud de los atributos: 



Distancia de Nienhuys-Cheng 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


1 


100 


99 


99.00 


100 


100.00 


100 


100.00 


100 


100.00 


2 


100 


98 


98.00 


98 


98.00 


100 


100.00 


100 


100.00 


3 


100 


98 


98.00 


100 


100.00 


100 


100.00 


100 


100.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


8 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


9 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


Total/prom. 


1000 


995 


99.50 


998 


99.80 


1000 


100.00 


1000 


100.00 



Tabla A. 7: Aciertos para el conjunto de datos mushroom con jerarquia de similitud de los atri- 
butos utilizando la distancia de Nienhuys-Cheng 



Distancia de Estruch et al. 


No. 

plingiic 


Elementos 

del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


%■ 


Aciertos 


7i 


Aciertos 


7, 


Aciertos 


'/< 





100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


1 


100 


99 


99.00 


100 


100.00 


100 


100.00 


100 


100.00 


2 


100 


97 


97.00 


100 


100.00 


100 


100.00 


100 


100.00 




iOO 


1)9 


99. 00 


iOO 


iOO.OO 


100 


100.00 


too 


100.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


8 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


9 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


Total/prom. 


1000 


995 


99.50 


1000 


100.00 


1000 


100.00 


1000 


100.00 



Tabla A. 8: Aciertos para ol conjunto do datos mushroom con jerarquia de similitud de los atri- 
butos utilizando la distancia de Estruch et al. 
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Distancia eucli'dea 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


1 = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


1 


100 


58 


58.00 


60 


60.00 


60 


60.00 


60 


60.00 


2 


100 


94 


94.00 


94 


94.00 


96 


96.00 


98 


98.00 


■> 
'} 


iOO 


11)0 


100. 00 


100 


100.00 


100 


100.00 


100 


100.00 


4 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


5 


100 


93 


93.00 


98 


98.00 


100 


100.00 


100 


100.00 


6 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


7 


iOO 


87 


87.00 


91 


91.00 


95 


95.00 


99 


99.00 


8 


100 


98 


98.00 


98 


98.00 


98 


98.00 


98 


98.00 


9 


100 


100 


100.00 


100 


100.00 


100 


100.00 


100 


100.00 


Total/prom. 


1000 


930 


93.00 


944 


94.40 


949 


94.90 


955 


95.50 



Tabla A. 9: Aciertos para cl conjunto de datos mushroom con jerarquia de similitud de Ids atri- 
butos utilizando la distancia eucli'dea 



A. 2 Conjunto de datos Soybean 

Los resultados del conjunto de datos soybean, al igual que mushroom, son calculados utili- 
zando las distancias de Nienhuys-Cheng, la distancia de Estruch et al. y la distancia eucli'dea 
sobre sobre una estructura plana (sin jerarqui'as), una jerarqui'a inducida por nombres (y valores 
de los atributos) y una jerarquia de acuerdo con la similitud de los atributos. 
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Estructura plana (sin jerarquias): 



Distancia de Nienhuys-Cheng 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





31 


25 


80.65 


30 


96.77 


31 


100.00 


31 


100.00 


1 


31 


22 


70.97 


29 


93.55 


29 


93.55 


29 


93.55 


2 


31 


19 


61.29 


26 


83.87 


28 


90.32 


29 


93.55 


3 


31 


19 


61.29 


29 


93.55 


29 


93.55 


29 


93.55 


4 


31 


21 


67.74 


25 


80.65 


26 


83.87 


29 


93.55 


5 


31 


24 


77.42 


26 


83.87 


29 


93.55 


30 


96.77 


6 


31 


28 


90.32 


30 


96.77 


30 


96.77 


31 


100.00 


7 


31 


25 


80.65 


30 


96.77 


30 


96.77 


30 


96.77 


8 


31 


24 


77.42 


27 


87.10 


28 


90.32 


28 


90.32 


9 


28 


24 


85.71 


28 


100.00 


28 


100.00 


28 


100.00 


Total/prom. 


307 


231 


75.35 


280 


91.29 


288 


93.87 


294 


95.81 



Tabla A. 10: Aciertos para el conjunto de datos soybean sin jerarquias utilizando la distancia de 
Nienhuys-Cheng 



Distancia de Estruch et al. 


No. 

pliegue 


Elementos 

del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


%■ 


Aciertos 


7, 


Aciertos 


7, 





31 


25 


80.65 


30 


96.77 


31 


100.00 


31 


100.00 


1 


31 


22 


70.97 


29 


93.55 


29 


93.55 


29 


93.55 


2 


31 


19 


61.29 


26 


83.87 


28 


90.32 


29 


93.55 




:il 


i!) 


()1.29 


29 


9:!. 55 


29 


9;i.55 


29 


9:!. 5 5 


4 


31 


21 


67.74 


25 


80.65 


26 


83.87 


29 


93.55 


5 


31 


24 


77.42 


26 


83.87 


29 


93.55 


30 


96.77 


6 


31 


28 


90.32 


30 


96.77 


30 


96.77 


31 


100.00 


7 


31 


25 


80.65 


30 


96.77 


30 


96.77 


30 


96.77 


8 


31 


24 


77.42 


27 


87.10 


28 


90.32 


28 


90.32 


9 


28 


24 


85.71 


28 


100.00 


28 


100.00 


28 


100.00 


Total/prom. 


307 


231 


75.35 


280 


91.29 


288 


93.87 


294 


95.81 



Tabla A. 11: Aciertos para el conjunto de datos soybean sin jerarquias utilizando la distancia de 
Estruch et al. 
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Distancia eucli'dea 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





31 


25 


80.65 


29 


93.55 


30 


96.77 


31 


100.00 


1 


31 


22 


70.97 


25 


80.65 


29 


93.55 


29 


93.55 


2 


31 


19 


61.29 


25 


80.65 


26 


83.87 


26 


83.87 


■> 
'} 


:il 


19 


()1.29 


28 


9().:i2 


29 


9:!. 55 


29 


9;i.55 


4 


31 


21 


67.74 


24 


77.42 


25 


80.65 


25 


80.65 


5 


31 


24 


77.42 


26 


83.87 


26 


83.87 


28 


90.32 


6 


31 


28 


90.32 


30 


96.77 


30 


96.77 


30 


96.77 


7 


:ii 


25 


cS().()5 


2() 


8:i.87 


30 


96.77 




96.77 


8 


31 


24 


77.42 


27 


87.10 


27 


87.10 


28 


90.32 


9 


28 


24 


85.71 


27 


96.43 


28 


100.00 


28 


100.00 


Total/prom. 


307 


231 


75.35 


267 


87.06 


280 


91.29 


284 


92.58 



Tabla A. 12: Aciertos para el conjunto de datos soybean sin jerarqmas utilizando la distancia 
eucli'dea 



Jerarqufa inducida por nombres y valores de los atributos: 



Distancia de Nienhuys-Cheng 


No. 

pliegue 


Elementos 

del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


%■ 


Aciertos 


%■ 


Aciertos 


7, 





31 


28 


90.32 


30 


96.77 


30 


96.77 


30 


96.77 


1 


31 


23 


74.19 


28 


90.32 


29 


93.55 


29 


93.55 


2 


31 


24 


77.42 


26 


83.87 


28 


90.32 


28 


90.32 




:il 


2:i 


71.19 


27 


cS7.1() 


2cS 


9().:!2 


28 


90.. -',2 


4 


31 


21 


67.74 


25 


80.65 


26 


83.87 


27 


87.10 


5 


31 


24 


77.42 


27 


87.10 


27 


87.10 


27 


87.10 


6 


31 


26 


83.87 


29 


93.55 


30 


96.77 


31 


100.00 


7 


31 


24 


77.42 


30 


96.77 


30 


96.77 


30 


96.77 


8 


31 


24 


77.42 


26 


83.87 


28 


90.32 


28 


90.32 


9 


28 


24 


85.71 


27 


96.43 


28 


100.00 


28 


100.00 


Total/prom. 


307 


241 


78.57 


275 


89.64 


284 


92.58 


286 


93.23 



Tabla A. 13: Aciertos para cl conjunto do datos soybean con jerarqufa inducida por nombres y 
valores de los atributos utilizando la distancia de Nienhuys-Cheng 
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Distancia de Estruch et al. 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





31 


27 


87.10 


29 


93.55 


30 


96.77 


31 


100.00 


1 


31 


23 


74.19 


28 


90.32 


29 


93.55 


29 


93.55 


2 


31 


22 


70.97 


27 


87.10 


28 


90.32 


28 


90.32 


■> 
'} 


31 


21 


77. 12 


27 


87.10 


28 


9().:!2 


28 


90.. -',2 


4 


31 


21 


67.74 


25 


80.65 


25 


80.65 


27 


87.10 


5 


31 


23 


74.19 


24 


77.42 


24 


77.42 


25 


80.65 


6 


31 


25 


80.65 


28 


90.32 


31 


100.00 


31 


100.00 


7 


31 


25 


80. ()5 


28 


9().:i2 


30 


96.77 




96.77 


8 


31 


20 


64.52 


27 


87.10 


28 


90.32 


30 


96.77 


9 


28 


23 


82.14 


27 


96.43 


28 


100.00 


28 


100.00 


Total/prom. 


307 


233 


75.96 


270 


88.03 


281 


91.61 


287 


93.55 



Tabla A. 14: Aciertos para el conjunto dc clatos soybean con jcrarquia inducida per nombres y 
valores de los atributos utilizando la distancia de Estruch et al. 



Distancia eucKdea 


No. 

pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





31 


25 


80.65 


29 


93.55 


30 


96.77 


31 


100.00 


1 


31 


22 


70.97 


25 


80.65 


29 


93.55 


29 


93.55 


2 


31 


19 


61.29 


25 


80.65 


26 


83.87 


26 


83.87 


3 


31 


19 


61.29 


28 


90.32 


29 


93.55 


29 


93.55 


4 


31 


21 


67.74 


24 


77.42 


25 


80.65 


25 


80.65 


5 


31 


24 


77.42 


26 


83.87 


26 


83.87 


28 


90.32 


6 


31 


28 


90.32 


30 


96.77 


30 


96.77 


30 


96.77 


7 


31 


25 


80.65 


26 


83.87 


30 


96.77 


30 


96.77 


8 


31 


24 


77.42 


27 


87.10 


27 


87.10 


28 


90.32 


9 


28 


24 


85.71 


27 


96.43 


28 


100.00 


28 


100.00 


Total/prom. 


:!()7 


2:!l 


75.35 


2()7 


87.06 


280 


91.29 


281 


92.58 



Tabla A. 15: Aciertos para el conjunto de datos soybean con jerarqma inducida por nombres y 
valores de los atributos utilizando la distancia eucHdea 
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Jerarquia de similitud de los atributos: 



Distancia de Nienhuys-Cheng 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





31 


26 


83.87 


31 


100.00 


31 


100.00 


31 


100.00 


1 


31 


27 


87.10 


31 


100.00 


31 


100.00 


31 


100.00 


2 


31 


25 


80.65 


30 


96.77 


30 


96.77 


30 


96.77 


3 


31 


25 


80.65 


30 


96.77 


30 


96.77 


30 


96.77 


4 


31 


28 


90.32 


30 


96.77 


31 


100.00 


31 


100.00 


5 


31 


26 


83.87 


31 


100.00 


31 


100.00 


31 


100.00 


6 


31 


28 


90.32 


31 


100.00 


31 


100.00 


31 


100.00 


7 


31 


27 


87.10 


31 


100.00 


31 


100.00 


31 


100.00 


8 


31 


25 


80.65 


31 


100.00 


31 


100.00 


31 


100.00 


9 


28 


27 


96.43 


28 


100.00 


28 


100.00 


28 


100.00 


Total/prom. 


307 


264 


86.09 


304 


99.03 


305 


99.35 


305 


99.35 



Tabla A. 16: Aciertos para el conjunto de datos soybean con jerarquia de similitud de los atributos 
utilizando la distancia de Nienhuys-Cheng 



Distancia de Estruch et al. 


No. 

pliegue 


Elementos 

del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


%■ 


Aciertos 


7, 


Aciertos 


'/< 





31 


26 


83.87 


31 


100.00 


31 


100.00 


31 


100.00 


1 


31 


27 


87.10 


31 


100.00 


31 


100.00 


31 


100.00 


2 


31 


25 


80.65 


30 


96.77 


30 


96.77 


30 


96.77 




:il 


2.") 


cS().()5 


:!() 


9().77 




90.77 




9().77 


4 


31 


28 


90.32 


30 


96.77 


31 


100.00 


31 


100.00 


5 


31 


26 


83.87 


31 


100.00 


31 


100.00 


31 


100.00 


6 


31 


28 


90.32 


31 


100.00 


31 


100.00 


31 


100.00 


7 


31 


27 


87.10 


31 


100.00 


31 


100.00 


31 


100.00 


8 


31 


25 


80.65 


31 


100.00 


31 


100.00 


31 


100.00 


9 


28 


27 


96.43 


28 


100.00 


28 


100.00 


28 


100.00 


Total/prom. 


307 


264 


86.09 


304 


99.03 


305 


99.35 


305 


99.35 



Tabla A. 17: Aciertos para cl conjunto dc datos soybean con jerarquia de similitud de los atributos 
utilizando la distancia de Estruch et al. 
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Distancia eucli'dea 


No. 
pliegue 


Elementos 
del pliegue 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 





31 


25 


80.65 


29 


93.55 


30 


96.77 


31 


100.00 


1 


31 


22 


70.97 


25 


80.65 


29 


93.55 


29 


93.55 


2 


31 


19 


61.29 


25 


80.65 


26 


83.87 


26 


83.87 


■> 
'} 


31 


19 


()1.29 


28 


9().:i2 


29 


9:!. 55 


29 


9;i.55 


4 


31 


21 


67.74 


24 


77.42 


25 


80.65 


25 


80.65 


5 


31 


24 


77.42 


26 


83.87 


26 


83.87 


28 


90.32 


6 


31 


28 


90.32 


30 


96.77 


30 


96.77 


30 


96.77 


7 


31 


25 


cS().()5 


2() 


8:i.87 


30 


96.77 




96.77 


8 


31 


24 


77.42 


27 


87.10 


27 


87.10 


28 


90.32 


9 


28 


24 


85.71 


27 


96.43 


28 


100.00 


28 


100.00 


Total/prom. 


307 


231 


75.35 


267 


87.06 


280 


91.29 


284 


92.58 



Tabla A. 18: Aciertos para cl conjunto de datos soybean con jerarqui'a de similitud de los atributos 
utilizando la distancia eucli'dea 



A. 3 Conjunto de datos Demospongiae 

Los resultados para este conjunto de datos {demospongiae) son calculados utilizando las 
distancias de Nienhuys-Cheng y la distancia de Estruch et al. 





Distancia de Nienhuys-Cheng 


i = 


i = 1 


i = 2 


i = 3 


No. ejemplos 


% 


No. ejemplos 


% 


No. ejemplos 


% 


No. ejemplos 


% 


Aciertos 


123 


60.89 


144 


71.29 


150 


74.26 


149 


73.76 


Errores 


79 


39.11 


58 


28.71 


52 


25.74 


53 


26.24 


Total 


202 




202 




202 




202 





Tabla A. 19: Aciertos y errores para el conjunto de datos demospongiae utilizando la distancia 
de Nienhuys-Cheng 
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Distancia de Nienhuys-Cheng 


Clase 


No. 
ejemplos 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


ASTROPHORIDA 


36 


23 


63.89 


30 


83.33 


30 


83.33 


29 


80.56 


AXINELLIDA 


28 


20 


71.43 


24 


85.71 


24 


85.71 


24 


85.71 


DK;TYf>C:ER ATIDA 


20 


20 


100.00 


20 


100.00 


20 


100.00 


20 


100.00 


HADKUMKiUDA 


18 


28 


58.;',;! 


29 


GO. 12 


29 


()().i2 


29 


()().42 


HALICHONDRIDA 


16 


1 


6.25 


8 


50.00 


9 


56.25 


9 


56.25 


HAPLOSCLERIDA 


18 


12 


66.67 


12 


66.67 


15 


83.33 


14 


77.78 


POECILOSCLERIDA 


36 


19 


52.78 


21 


58.33 


23 


63.89 


24 


66.67 


Total 


202 


123 




144 




150 




149 





Tabla A. 20: Aciertos por cada clase para el conjunto de datos demospongiae utilizando la dis- 
tancia de Nienhuys-Cheng 





Distancia de Estruch et al. 


i = 


i = 1 


i = 2 


i = 3 


No. ejemplos 


% 


No. ejemplos 


% 


No. ejemplos 


% 


No. ejemplos 


% 


Aciertos 


123 


60.89 


148 


73.27 


159 


78.71 


157 


77.72 


Errores 


79 


39.11 


54 


26.73 


43 


21.29 


45 


22.28 


Total 


202 




202 




202 




202 





Tabla A. 21: Aciertos y errores para el conjunto de datos demospongiae utilizando la distancia 
de Estruch et al. 
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Distancia de Estruch et al. 


Clase 


No. 
ejemplos 


i = 


i = 1 


i = 2 


i = 3 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


Aciertos 


% 


ASTROPHORIDA 


36 


24 


66.67 


32 


88.89 


32 


88.89 


31 


86.11 


AXINELLIDA 


28 


20 


71.43 


23 


82.14 


23 


82.14 


23 


82.14 


DK:;TYf>C:ER ATIDA 


20 


20 


100.00 


20 


100.00 


20 


100.00 


20 


100.00 


HADKUMKiUDA 


18 


2() 


51.17 




08.75 




()8.75 


•) ') 


()8.75 


HALICHONDRIDA 


16 





0.00 


4 


25.00 


8 


50.00 


8 


50.00 


HAPLOSCLERIDA 


18 


12 


66.67 


15 


83.33 


18 


100.00 


18 


100.00 


POECILOSCLERIDA 


36 


21 


.58.33 


21 


58.33 


25 


69.44 


24 


66.67 


Total 


202 


12.3 




118 




159 




157 





Tabla A. 22: Aciertos por cada clase para el conjunto de datos demospongiae utilizando la dis- 
tancia de Estruch et al. 
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B Descripcion de la implementacion de 
las distancias entre terminos 



En este apendice se describe la implementacion de las distancias de Nienhuys- Cheng y Es- 
truch et al. utilizando XML como estructura de representacion de datos. 



B.l Distancia de Nienhuys-Cheng 

La distancia de Nienhuys-Cheng utiliza la profundidad de las ocurrencias de manera que 
las diferencias que estan cerca de los si'mbolos rafz cuentan mas que aquellas que no lo estan. 
Dadas dos expresiones, s = so(si, • • • , s„) y t = io(ii, • ■ • : tn), esta distancia esta definida de la 
siguiente manera 



Dos expresiones son incompatibles si los si'mbolos rafz o la aridad de las dos expresiones son 
diferentes. 

Para implementar la distancia Nienhuys-Cheng entre dos ejemplos, representados en una 
estructura XML, es necesario recorrer (recursivamente) todos los elementos de un arbol e ir 
comparandolos con los elementos del segundo, aplicando la funcion de distancia. 





si s = t 

si -^Co'mpatible{s,t) 
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Inicialmente se determina el niimero de hijos de cada arbol y puede ocurrir una de las 
siguientes tres situaciones: 1) ninguno de los dos elementos tiene hijos, 2) los dos elementos 
tienen diferente niimero de hijos, 6 3) los dos elementos tienen el mismo mimero de hijos. Para 
la primera situacion, si el contenido de los dos elementos son iguales su distancia es 0; si por el 
contrario son diferentes, su distancia es 1; para el segundo caso, los elementos (o terminos) son 
incompatibles y su distancia siempre es 1; en el tercer caso es necesario calcular recursivamente 
las distancias de cada elemento, sumarlas entre si y finalmente mult iplicar las por el factor 
donde n es el mimero de hijos del elemento. 



e 

6.1 
6.2 
6.3 
6.4 



S 

B.l 
B.2 

9 

9.1 
9.2 

10 

10.1 
10 .1 .1 



<Mushroom> 

<bruises>BRUISES</bruises> 

< odor >ALM01IE < / odo r > 

<population>SEVEIRAL</population> 

<habitat>WOODS</habitat> 

<cap> 

<shape>COHVKX</shape> 

<surface>SMOOTH</surface> 

<color>WHITE</color> 

</cap> 

<gill> 

<attachment>FRBB</ attachment> 

<spacing>CROWDED</ spaclng> 

<size>lIIiRROW</size> 

<color>WHITE</color> 
</gill> 
<3talk> 

<shape>TaPBRIWG</3hape> 

<root>BULBOUS</root> 

<surface> 

<above_ring>SMOOTH</above_ring> 
<bel ow_ri ng>SHOOTH< /bel ow_ri ng> 

</surf ace> 

<color> 

<above_ring>WHITE</above_ring> 
<below_ring>WHITE</below_ring> 
</color> 
</stalk> 
<veil> 

< typ e> PARTIAL </ 1 H^e > 
<color>WHITE</color> 
</veil> 
<ring> 

<nurrber>ONE</number> 
<type>PElIDAHT</tYpe> 
</ring> 
<spore> 

<print> 

<color>BRO?JN</ color> 
</print> 
</ spore> 
</]>^u3hroom> 

(a) 



<Mushroom> 

<bruises>BRUISBS</brui3es> 

< odor >ALMOND < / o do r > 

<population>SEVEEUiL</population> 

<habitat>WOODS</habitat> 

<cap> 

<shape>COHVSX</ shape> 
<surface>SMOOTH</surf ace> 
<color>YELLOW</color> 

</cap> 

<gill> 

<attachment>FREE</attachment> 

<spacing>CR0WDED</5pacing> 

<3ize>BR0AE</3ize> 

<color>YELLOW</color> 
</glll> 
<stalk:> 

<3hape>TAPBRIirC3</3hape> 

<root>BtrLBOTIS</root> 

<surface> 

<above_ring>SMOOTH</ above_ring> 
<bel ow_r i ng >SHOOT H< /b el ow_r i n g> 

</3urf ace> 

<color> 

<above_ring>WHITE</above_ring> 
<bel ow_ring>WHITE</below_ring> 
</color> 
</stalk> 
<veil> 

<type>PARTIAL</tYpe> 
<color>WHITB</color> 
</veil> 
<ring> 

<number>ONE</number> 
<type>PENDANT</tYpe> 
</ring> 
<spore> 

<print> 

<color>YBLLOW</color> 
</print> 
</spore> 
</tdu3hroom> 



(b) 



Figura B.l: Ejemplo de dos jerarqui'as en XML para calcular distancias entre terminos 
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La figura B.l muestra dos ejemplos del conjunto de datos de mushroom representados en 
XML. Debido a que la distancia entre dos elementos iguales es 0, entonces se identifican linica- 
mente los elementos que son diferentes; para el ejemplo de la figura |BTT] size y tres elementos 
color pertenecientes a cap, gill y spore; luego se aplica la funcion do distancia sobre estos ele- 
mentos (las distancias entre los elementos color, para los tres casos, son iguales a 1; por esta 
razon no se diferencian en este ejemplo; sin embargo, si el valor para alguno de estos elementos 
fuera una estructura, las distancias serian diferentes y deben calcularse cada una por separado): 

{col or I, col or 2) = dj^isizci, size2) — 1 
Despues de calculada la distancia para color y size, es posible calcular las distancias para cap 

y gM- 

dN{capi,cap2) = ^^{d{colori,color2)) = \'^ = \ 



dN{gilli,gill2) = r((rf(sizei, size2)) + (d{colori,color2))^ = ^ ' + 1) = 7 



Para calcular la distancia de spore primero se debe calcular print: 



dN{printi,print2) = - — -(^d{colori, color2)) ^ 2 ' ^ ^ 2 



dN{sporei,spore2) = ^^{d{printi,print2)) = \'\ = \ 

Finalmente, utilizando las distancias de cap, gill y spore se calcula la distancia entre estas dos 
instancias: 



In 



{gilli,gill2) = -^^^-^{{d{capi,cap2)) + {d{gilli, gilh)) + {d{sporei, spore2))^ 



— (- - - 1 - — 
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B.2 Distancia de Estruch et al. 



La distancia entre terminos propuesta por Estruch et al. [S] tiene en cuenta los siguentes 
aspectos: el contexto de las diferencias, la complejidad sintactica mediante el tamano de una 
expresion y la ponderacion asociada con las repeticiones utilizando relaciones de equivalencia. 
A continuacion se describe la implementacion de estos aspectos. 

■ Diferencias sintacticas entre expresiones: 

La diferencia sintactica es un conjunto de ocurrencias incompatibles entre dos expresiones. 
Las ocurrencias son una secuencia de numeros positivos (separados por puntos), encabe- 
zada por el si'mbolo A, que representan rutas de acceso en un arbol o un termino (por 
ejemplo, sea t = p{a, f{b)), entonces el conjunto de ocurrencias 0{t) — {A, 1, 2, 2.1}). 

Para implementar la diferencia sintactica, entre dos ejemplos, es necesario recorrer el do- 
cumento XML y seleccionar las rutas en las cuales sus elementos son incompatibles y 
adicionarlos a una lista (de diferencias sintacticas). La incompatibilidad entre dos ele- 
mentos se presenta cuando el niimero de hijos, etiquetas o valores en la misma ruta son 
diferentes; para el ejemplo de la figura [B?l] la lista de diferencias sintacticas es la siguiente: 

0{Mushroomi, Mushroom2) = {A, 5.3, 6.3, 6.4, 10.1.1} 

■ Relaciones de equivalencia de clases: 

Las diferencias repetidas entre los terminos encontrados en la diferencia sintactica son de- 
finidas como relaciones de equivalencia. La implementacion de estas equivalencias de clases 
esta definida por medio de la identificacion de ocurrencias con repeticiones comunes (para 
las dos instancias) contenidas en la diferencia sintactica; es decir, todos los elementos de 
cada ejemplo encontrados en la diferencia sintactica, de acuerdo con su ruta, son compara- 
dos entre si identificando sus repeticiones; posteriormente, estas repeticiones tambien son 
comparadas para los dos ejemplos y en caso de coincidir, sus rutas son asignadas a una 
misma clase. 

Inicialmente se construye una matriz cuadrada por cada ejemplo; la dimension de esta 
matriz es igual al niimero de rutas existentes en la diferencia sintactica, donde cada fila 
y columna representa uno de estos elementos para un ejemplo dcterminado. Luego, se 
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compara cada elemento con todos los demas: si tanto la etiqueta como el contenido del 
elemento son iguales, entonces la posicion en la matriz correspondiente a estos elementos es 
marcada con 1, en caso contrario es marcada con 0. Cuando el elemento es comparado con 
el mismo (que corresponde a la diagonal de la matriz), este valor no sera tenido en cuenta 
y por este motivo sera marcado con el valor 0. Utilizando el ejemplo anterior (donde la 
diferencia sintactica es: 0{Mushroomi, Mushroom2) = {A, 5.3, 6.3, 6.4, 10.1.1}, entonces 
se crean dos matrices como se muestra en la figura |B.2| indicando cuales elementos son 
iguales: 





5.3 


6.3 


6.4 


10.1.1 






5.3 


6.3 


6.4 


10.1.1 


5.3 








1 







5.3 








1 


1 


6.3 
















6.3 














6.4 


1 













6.4 


1 








1 


10.1.1 
















10.1.1 


1 





1 






(a) 



(b) 



Figura B.2: Matriz de repeticiones para las jerarquias de la figura B.l 



Para la matriz del ejemplo B.2b los elementos 5.3, 6.4 y 10.1.1 son iguales (en nombre 



de la etiqueta y valor). Por otra parte, para la matriz del ejemplo B.2a linicamente los 
elementos 5.3 y 6.4 son iguales. Utilizando las matrices de los ejemplos anteriores, es posible 
construir una tercera matriz que contenga como resultado las repeticiones comunes. Para 
construir esta matriz resultante es necesario comparar cada celda y solo seran marcadas 
con 1 aquellas que, en ambos casos, contengan el valor 1; es decir, las repeticiones son las 
mismas para ambos ejemplos. Utilizando las tablas de la figura |B.2[ linicamente seri'an 
marcadas las celdas 5.3 y 6.4. 





5.3 


6.3 


6.4 


10.1.1 


5.3 








1 





6.3 














6.4 


1 











10.1.1 















Tabla B.l: Matriz de repeticiones comunes de la figura B.2 



Utilizando la matriz resultante |B.1| es posible asignar cada ruta dentro de una clase; 
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la manera de hacerlo es colocando en una misma clase todas las rutas con repeticiones 
comunes; luego las rutas de los elementos restantes de la diferencia sintactica son asignadas, 
cada una, en una clase aparte. La tabla [R!2| muestra la aisgnacion de clases para cada ruta: 



Ruta 


Clase 


5.3 


1 


6.4 


1 


6.3 


2 


10.1.1 


3 



Tabla B.2: Rutas por cada clase utilizando la matriz 



B.l 



Esta tabla de equivalencias de clases |B.2| es guardada en una estructura en memoria y, 
posteriormente, utilizada para calcular la ponderacion de las ocurrencias. 

Tamano de una expresion: 

El tamano de una expresion t = ^0(^1, ■ ■ ■ , tn) esta definido por la siguiente funcion [9j: 



donde: 



Size' {t) — -Size{t) 



Size{to{ti 



,tn)) = 



1, n = 

^ + 2(n+l) , 'i > U 



Size es una funcion recursiva que se implementa obteniendo el numero de hijos de un 
elemento; si el elemento no tiene hijos, su tamano es 1; por el contrario, si el elemento 
tiene hijos, se calcula recursivamente el tamano de todos los elementos hijos y sc suman 
entre si; luego, el valor obtenido divide por el factor 2(n + 1), donde n es el numero de 
hijos y, finalmente, se le suma 1 a este valor. Size' es calculado facilmente dividiendo el 
valor de Size entre 4. 

Los tamahos son calculados para todos los elementos de las dos instancias comparadas, 
relacionados en la lista de diferencias sintacticas y se almacenan en memoria para ser 



utilizados posteriormente. La tabla B.3 muestra los tamanos Size' para los elementos de 
la tabla EH 
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Ruta 


Clase 


size' 


size' 






ejemplo 1 


ejemplo 2 


5.3 


1 


0.25 


0.25 


6.4 


1 


0.25 


0.25 


6.3 


2 


0.25 


0.25 


10.1.1 


3 


0.25 


0.25 



Tabla B.3: Tamafio de los elementos relacionados en la labia 



B.2 



■ Valor del contexto de ocurrencia: 

El valor de contexto de ocurrencia de una expresion t, denotado por C{o;t), es definido 
de la siguientc manera [9]: 

C( t)^l ^'""^^ 

1 2^™^'*''(°) . Uvo'ePreioMrztyitl,,) + 1), otro caso 

donde la longitud de una ocurrencia, Length{o) , es el numero de items en o. Por ejemplo, 
Length{5.3) 2, Length{m. 1.1) = 3. 

El valor del contexto de ocurrencia se refiere a las relacion entrc un subtcrmino i|o y i en 
el sentido en que, para un valor alto de C(o; t) corresponde a una posicion profunda de t\o 
en t o la existencia de superterminos de t|o con un gran numero de argumentos [9j. 

Para implementar el valor del contexto, por cada ocurrencia encontrada en la diferencia 
sintactica, se recorre la rama del arbol ascendentemente calculando la aridad de cada 
padre y sumandole 1; luego, todas las aridades son multiplicadas entre si; finalmente, se 
multiplica el valor anterior por 2^™9th{o)^ Para aquellos casos en que la ocurrencia sea A, 
de acuerdo con la definicion, el valor de contexto sera 1. 

La tabla [BT4| muestra el valor de contexto calculado para los elementos de la tabla [R2} 
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Ruta 


Clase 


size' 


size' 


Valor 






ejemplo 1 


ejemplo 2 


de contexto 


5.3 


1 


0.25 


0.25 


176 


6.4 


1 


0.25 


0.25 


220 


6.3 


2 


0.25 


0.25 


220 


10.1.1 


3 


0.25 


0.25 


352 



Tabla B.4: Valor de contexto de los elementos relacionados en la tabla 



B.2 



Ponderacion de las ocurrencias: 



La funcion de ponderacion w es una funcion que, dada dos expresiones s y t, se define de 
la siguiente manera 



VoeO*(s,i), w{o) 



3/z(o) + l 
4/,:(o) 



Esta funcion asocia ponderaciones a las ocurrencias de manera que, mientras mayor sea el 
valor de contexto de una ocurrencia, menor es la ponderacion asignada a esta; es decir, la 
diferencia sintactica menos significativa que se refiere a la ocurrencia [S]. 

Para la implementacion dc la ponderacion, por cada ocurrencia relacionada en la diferencia 
sintactica, primero se calcula el valor de fi (o) que corresponde al valor de posicion de cada 
ocurrencia dentro de la clase obtenida en la relacion de equivalencia. En el ejemplo anterior, 
/i(5.3) = 1 y /i(6.4) — 2, debido a que la equivalencia de clase 1 contiene dos ocurrencias; 
para la clase 2 y 3, que solo tienen una ocurrencia, entonces /2(6.3) — /3(11.1.1) = 1. 



Despues de calculado el valor /i(o), se aplica la funcion de ponderacion. La tabla B.5 
muestra la ponderacion calculada utilizando las relaciones de equivalencia obtenidas en la 
tabla EH 



Ruta 


Clase 


size 


size' 


Valor 


Ponderacion 






ejemplo 1 


ejemplo 2 


de contexto 




5.3 


1 


0.25 


0.25 


176 


1 


6.4 


1 


0.25 


0.25 


220 


0.875 


6.3 


2 


0.25 


0.25 


220 


1 


10.1.1 


3 


0.25 


0.25 


352 


1 



Tabla B.5: Ponderacion de las ocurrencias de los elementos relacionados en la tabla B.2 
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Distancia de Estruch et al.: 

Dada dos expresiones s y i, la distancia de Estruch et al. se define de la siguiente manera: 



dE{s,t)^ ^ ^^^j^[size' {s\o) + size' {t\o)) 
oeo*(s,t) ^ ' 



Finalmente, para calcular la distancia de Estruch et al. se suman los tamafios de todos los 
elemntos relacionados en la diferencia sintactica, se multiplican por la ponderacion y se 
dividen por el valor de contexto; para obtener la distancia, se suman estos valores entre 



SI. Para el ejemplo anterior (mostrado en la tabla B.5 1, la distancia es igual a 0.00852272 
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